使用requests库时使用xpath:
pip3 install lxml #python3
使用:
from lxml import etree
res = requests.get('url') #得到网页的响应
res_elements = etree.HTML(res.text) #获得网页源代码源代码
s = res_elements.xpath('//') #使用xpath
etree而其它功能:
html_recover = etree.tostring(html) #补全html
pandas爬取表格的简单使用:
安装:
pip3 install pandas
爬取表格:
import pandas
s = pandas.read_html(url)[i] #i为网页第几个表格
另一种写法:
#先用xpath提取你所需的表格 t
s = pandas.read_html(t)[0]
210

被折叠的 条评论
为什么被折叠?



