爬虫复习与拓展2

最新推荐文章于 2024-08-15 12:11:47 发布

ku_code_ku

最新推荐文章于 2024-08-15 12:11:47 发布

阅读量210

点赞数

分类专栏：爬虫文章标签：爬虫学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_56022510/article/details/128653832

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.针对网站结构复杂，js动态加载采用selenium是非常方便的。

selenium-python中文文档 (python-selenium-zh.readthedocs.io)https://python-selenium-zh.readthedocs.io/zh_CN/latest/1.%E5%AE%89%E8%A3%85/缺点：爬取速度慢，针对大量数据集不适合爬取。

完善方法：可以考虑采用多线程和多进程来加快速度。

可以采用不加载一些元素来加快速度比如css等。

2.如果你想用几行代码就能搞定一个爬取任务那么requests-html是非常不错的。

requests-HTML v0.3.4 documentation (python-requests.org)https://docs.python-requests.org/projects/requests-html/en/latest/缺点：有时候东西爬下来不全

完善：大佬可以尝试改变它的源码来解决这个功能。

3.最经典的方法：request和beatuiful-soup来复杂请求和解析。

缺点：复杂的js动态加载数据是不能处理的。

完善：mechanize是另一种爬虫框架是可以加载JS的。

4.最老的方法:urllib3----上世纪的东西，对于学习有用。

5.构建一个结构性的强大爬虫可以用scrapy来构建

Scrapy 2.5.0 文档 (osgeo.cn)https://www.osgeo.cn/scrapy/intro/examples.html

缺点：但是对于稍微复杂一点的页面它就不得行了。

6.可视化的爬虫软件：Portia PySpider

pyspider使用教程 - 腾讯云开发者社区-腾讯云 (tencent.com)https://cloud.tencent.com/developer/article/1809106 pyspider的安装过程中的那些坑_kalihttps://blog.csdn.net/CSDN__CPP/article/details/110007755

7.要求速度很快可以用cola和Crawley

8.其他的还有专门用来爬取特定内容的框架比如爬取文章图片等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫复习与拓展2

selenium-python中文文档 (python-selenium-zh.readthedocs.io)3.最经典的方法：request和beatuiful-soup来复杂请求和解析。4.最老的方法:urllib3----上世纪的东西，对于学习有用。8.其他的还有专门用来爬取特定内容的框架比如爬取文章图片等。完善：mechanize是另一种爬虫框架是可以加载JS的。完善：大佬可以尝试改变它的源码来解决这个功能。缺点：但是对于稍微复杂一点的页面它就不得行了。缺点：复杂的js动态加载数据是不能处理的。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。