1.xpath()函数的使用-之后会练习使用find_all()函数
需要安装lxml库,xpath()方法放回的结果是一个列表
1.1 XPath 常用规则
例子:
这是一个 XPath 规则,代表的是选择所有名称为 title,同时属性 class 的值为 eng 的节点,后面会通过 Python 的 lxml 库,利用 XPath 进行 HTML 的解析。
1.2 获取文本
1.3 要提取的信息有大量空格
使用normalize-space()函数:
1.4 多属性匹配
1.5 提取的网址不是完全意义上的网址
只是部分的网址,例如这个网站提取的就是缺少https://dl.58.com的网址,所以要给加上这一块,当提取完后,可以直接这样:
1.4 遇到tbody的情况如何处理:
这是网页的规范性问题,可以直接跳过,我们定位路径的时候可以直接忽略这个点
1.5 提取的内容有好多tr,td:
这个时候我们可以直接定位到某一个点:
2