提取网页中的href 爬虫_爬虫中网页数据获取后的三种处理方法

最新推荐文章于 2023-10-13 10:55:13 发布

臧竹萌12312~~

最新推荐文章于 2023-10-13 10:55:13 发布

阅读量1.3k

点赞数 1

文章标签：提取网页中的href 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28963585/article/details/112831942

版权

爬虫如风，常伴吾身……

在日常的折腾中，无论是我的网站被人爬，还是别人的网站被我爬，这像是一个博弈的过程。双方在“隐形条约”下完成自己的任务，正所谓君子之交淡如水，我不知道他是谁，他也不知道我是谁，我们互相为对方提供所需要的信息。或许这种关系更像是江湖，纯粹的江湖，不讲莺莺燕燕和人情世故。只讲轻舟江上对饮，竹林剑鸣，点到为止。而后双方收剑而去，更不会有人啰嗦着问一句：“来将何人？报上名来。”

爬虫中重要的一环就是数据处理。虽然静态加载的网页结构千差万别，界面看起来也各有特色，但爬取到的数据是单一的，都是DOM结构“子孙”。即使明白筛选数据的本质就是处理字符串，但其中的处理办法也层出不穷。以下根据不同的网页风格，对症下药。

一：“好孩子”式网页

特点：有完整的DOM结构，虽然有的时候采用“乱七八糟”的编码，如：gb2312等，但它的本质还是个“好孩子”。

示例网址：百度搜索风云榜 http://top.baidu.com/buzz?b=1

分析：查看源码可以简单的看出风云榜的新闻格式均为

的子节点，而我们需要的部分正是的子节点标签。且a标签的属性class为“list-title”。

像这种网页是典型的“好孩子”网页，有良好的可视的DOM结构，所需要的信息都来自相同的结构，解析的时候不用费很大的劲。

解析办法࿱

最低0.47元/天解锁文章

臧竹萌12312~~

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
提取网页中的href 爬虫_爬虫中网页数据获取后的三种处理方法

爬虫如风，常伴吾身……在日常的折腾中，无论是我的网站被人爬，还是别人的网站被我爬，这像是一个博弈的过程。双方在“隐形条约”下完成自己的任务，正所谓君子之交淡如水，我不知道他是谁，他也不知道我是谁，我们互相为对方提供所需要的信息。或许这种关系更像是江湖，纯粹的江湖，不讲莺莺燕燕和人情世故。只讲轻舟江上对饮，竹林剑鸣，点到为止。而后双方收剑而去，更不会有人啰嗦着问一句：“来将何人？报上名来。”爬虫中重...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。