模拟八爪鱼通用爬虫

最新推荐文章于 2024-08-01 11:27:04 发布

龍丶胤

最新推荐文章于 2024-08-01 11:27:04 发布

阅读量1.2k

点赞数 3

分类专栏：总结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bquau/article/details/82993830

版权

总结专栏收录该内容

16 篇文章 0 订阅

订阅专栏

这是我近期做的一个东西，因某些原因分布式不能上传，只上传最初的简单demo版本。

说一下我的想法，它点选会返回相同标签下的数据，所以要获取标签，并且要在本站显示用户想要爬取的页面。

首先说在本站显示想要爬取的页面：我的想法是将整个页面的html爬取到本地服务器，然后由本站加载该html就能基本实现此功能

然后是获取相同标签下的数据，因为是本站的html所以获取点击事件，和点击标签是比较容易的事，接下来就简单了。获得用户点击的标签列表生成xpath再去爬取就好了

git https://github.com/520zhangsiyuan/General-crawler

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。