前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
提示:以下是本篇文章正文内容,下面案例可供参考
一、XPath是什么?
XPath(XML Path Language)是一门在XML文档中查找信息的语言,写爬虫的过程中要XPath比re正则表达式更加方便。
二、使用步骤
1.引入库
from lxml import etree # 如果这里报错说明你没有哦,直接按照前面写过的下载包的方式下载就好啦
但是这个我在我自己电脑上写的时候就不对,然后找了一下网上的教程换成了这几句就好啦
import requests
from lxml import html
etree = html.etree
2. 将源码转化为能被XPath匹配的格式
selector=etree.HTML # 注:html是你爬虫的网页源码
3.返回查找的内容
selector.xpath(表达式) #注意这里返回格式为列表!!