首先先是确定url情况下的处理:
这边编写一个简易的函数(新手向):
def getHtmlCode(url,code):
#url是网站网址 code 是编码
header = {
'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; '
'Nexus 5 Build/MRA58N) '
'AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/56.0.2924.87 Mobile Safari/537.36'
}
req=request.Request(url)
response=request.urlopen(req)
html=response.read()
page=html.decode(code)
#print(page)
return page
这边以某个网站的一分一段表为例:
首先导入相关用的包:
from urllib import request
from parsel import Selector
import pandas as pd
import sys
sys.path.append(r"D:\数据挖掘 py\work\函数")
import writeexcel
这边导入的writeexcel 是一个创建文件,具体如下:

最低0.47元/天 解锁文章
7203

被折叠的 条评论
为什么被折叠?



