爬虫随笔四

最新推荐文章于 2022-09-05 22:09:16 发布

FreeSpider公众号

最新推荐文章于 2022-09-05 22:09:16 发布

阅读量219

点赞数

分类专栏：爬虫文章标签：爬虫 spider

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40612082/article/details/81878835

版权

爬虫专栏收录该内容

18 篇文章 0 订阅

订阅专栏

正则使用的注意点

re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果
原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来的转义的效果
点号默认情况匹配不到\n
\s能够匹配空白字符，不仅仅包含空格，还有\t|\r\n

xpath学习重点

使用xpath helper或者是chrome中的copy xpath都是从element中提取的数据，但是爬虫获取的是url对应的响应，往往和elements不一样
获取文本
- a/text() 获取a下的文本
- a//text() 获取a下的所有标签的文本
- //a[text()='下一页'] 选择文本为下一页三个字的a标签
@符号
- a/@href
- //ul[@id="detail-list"]
//
- 在xpath最前面表示从当前html中任意位置开始选择
- li//a 表示的是li下任何一个标签

lxml使用注意点

lxml能够修正HTML代码，但是可能会改错了
- 使用etree.tostring观察修改之后的html的样子，根据修改之后的html字符串写xpath
lxml 能够接受bytes和str的字符串
提取页面数据的思路
- 先分组，渠道一个包含分组标签的列表
- 遍历，取其中每一组进行数据的提取，不会造成数据的对应错乱

FreeSpider公众号

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫随笔四

正则使用的注意点re.findall("a(.*?)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹配空白字符，不仅仅包含空格，还有\t|\r\nxpath学习重点使用xpath helper或者是chrome中的copy xpa...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。