scrapy写爬虫注意事项

最新推荐文章于 2024-03-14 11:45:00 发布

csa121

最新推荐文章于 2024-03-14 11:45:00 发布

阅读量496

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/csa121/article/details/77688742

版权

前段时间有个爬虫的需求，爬的什么网站的数据就不说了，简单介绍下在学习scrapy这中间踩的坑吧。

1、在爬取数据的时候，一定要想办法将爬虫伪装成一个浏览器，可以通过设置cookie和请求头的信息。这个具体的方法很多，随便百度一个关键词“scrapy设置请求头”，就可以出来一大堆答案。裸奔的话频率小点没啥事，但是访问频率比较高的话就会被302掉。甚至会被短时间内封掉ip，建议设置一个请求头比较保险。
2、使用scrapy时，要学会使用meta来传参。
3、要深入理解yield的用法。
4、item的使用尽量将需要的字段给他，不要给无关紧要的字段。
5、碰到异步请求的页面是，耐心找找异步请求的链接获取格式。一般来讲，请求的链接都是固定的，只是某一个相关的参数不同。拼接请求就可以了。
6、碰到js渲染的页面时，需要使用phantomjs来加载js渲染后页面，phantomjs更像一个隐藏的浏览器，能获取到最全面的页面信息，使用时需要自己写一个js加载文件。网上很多。最便捷的就是通过标准输出将页面返回给主逻辑。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy写爬虫注意事项

前段时间有个scrapy爬虫的需求，简单介绍下在学习scrapy这中间踩的坑吧。以及需要注意的地方。
复制链接

扫一扫

博客等级

码龄9年

13
原创

17
点赞

29
收藏

9
粉丝

关注

私信

热门文章

分类专栏

StarRocks 1篇
java 6篇
jvm 6篇
大数据 3篇
深度学习 1篇
web 1篇
网站搭建 1篇

最新评论

google的tensor2tensor的学习和使用
「已注销」: 如果输入数据是二维或者三维的数据，my_problem.py中的comment_list数据列表输入要怎么写，需要先进行特征提取吗
google的tensor2tensor的学习和使用
m0_37855283: 博主你好，我在decoder时候遇到了这样的错去，ValueError: Could not parse hparam 'alpha' of type 'float' with value '0.6--decode_from_file=./decoder/Cmon_Omom.Cmon' in beam_size=4,alpha=0.6--decode_from_file=./decoder/Cmon_Omom.Cmon Cmon_Omon.Cmon是我数据，做的任务是机器翻译。
python数据清洗流程和注意点
技术搬砖人: 不错的方法论
google的tensor2tensor的学习和使用
sinat_32051231 回复胖子有大智慧: 不知道你成功没有，如果是windows的话是这样执行的"python path/to/your/t2t-datagen --t2t-usr-dir=..." 我是装在anaconda的某个environment里的因此是python C:\Users\ALCECCENTRIC\Anaconda3\envs\tf-1.14\Scripts\t2t-datagen ... 你需要到你的用户名文件夹下搜索下你的安装位置，为了方便可以在cmd里setx T2T_PATH=...
google的tensor2tensor的学习和使用
胖子有大智慧: 博主你好，我在运行t2t-datagen命令的时候，也是一直是找不到命令，但是我装了tensor2tensor，求解答，谢谢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。