XPath简介和基本使用
1.前言
之前爬虫的时候没有用过XPath,就是没用过lxml这个包,遇到json格式网页我用的json.loads(),html格式用的BeautifulSoup里面有find和find_all函数查找标签之类的。但是XPath在爬虫里面也算一个比较重要的工具,当然要学习啦。
2.过程
找到了一个不错的教程,python爬虫之xpath的基本使用,挺全的,现在收藏一下,写的时候参考,哈哈。里面有获取html某标签文本内容,标签属性之类的。刚刚conda install lxml,装了下包,到时候from lxml import etree就能用了(打基础阶段,时刻准备着)。在另外一个网站上看到,类似这种:
html = etree.HTML(wb_data)
html_data = html.xpath('/html/body/div/ul/li/a/text()')
html得到的是ElementTree对象,后续打印输出操作就要转换成String类型,html_data循环遍历就行。目前先码上,还没开始用,预备工作做好。