通用框架:
from lxml import etree
import requests
r=requests.get('http://news.sina.com.cn/hotnews/')
r.encoding = r.apparent_encoding
tree = etree.HTML(r.text)
可能会遇到的问题 使用浏览器复制的xpath为空值
解决方案
原因1:浏览器复制的xpath会自动优化,自己加上tbody,但网页源代码里是没有的
解决1:去掉xpath中的tbody
原因2:未知
解决2:使用//text()输出
data = tree.xpath('//td[@class="ConsTi"]//text()' //YES
data = tree.xpath('//td[@class="ConsTi"]/text()' //NO