scrapy爬虫【1】→学习路上的坑和大家一起分享

最新推荐文章于 2022-01-22 19:40:46 发布

帅东

最新推荐文章于 2022-01-22 19:40:46 发布

阅读量1.7k

点赞数 1

分类专栏： scrapy爬虫文章标签：爬虫

本文链接：https://blog.csdn.net/PROGRAM_anywhere/article/details/72850085

版权

scrapy爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

最近迷上了爬虫，当我昨晚完成一个自己的项目的时候，一阵感慨，学习路上的坑和大家一起分享
网上很多教程博客说的不全（自己深有体会，我百度N好多次，差点都放弃了爬虫），看到别人爬取某个网站，但是当你自己动手做的时候会发现啥都干不了

xpath解析失败？网页都进不去？

原因可能有以下几个：
1. 看看你settings.py文件里面是不是有个ROBOTSTXT_OBEY = True
2. 看看你settings.py文件里面USER_AGENT有设置么？
3. 如果你用了pipelines看看settings.py里面ITEM_PIPELINES有打开么？
4. 获取不到某个div、span这些元素说明网页是用javascript进行动态加载的，而浏览器中的xpath工具只能获取到网页源码中的东西。

最坑的莫过于ROBOTSTXT_OBEY = True，都不报错，返回码也是正常的200。这东西简单的来说就是爬虫（robot机器人）规定：不能爬取我不想给你爬的东西
Me：我去，现在反爬虫多成啥了，你区区一个文本文件就能不让我爬了？你好歹整点有技术含量的东西吧。
改为 FALSE或者干掉这句话就好了

USER_AGENT这个东西也有点坑，不过还算是有点技术含量了吧，比起上面那个好多了，现在大型网站都有反爬机制，会检测你请求的内容，你如果连个最基础的浏览器信息都没有，那你肯定是非人类了啊，肯定给你返回个300或者302啥的你一看也能明白可能不让你进去
加一个 USER_AGENT=’Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0’ 也可以改成别的

后面还会写几篇文章大概就是：
1. 文本解析
2. 图片解析
3. 导入到mysql
3. AJAX解析
4. 模拟登陆

希望和大家一起进步

帅东

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
scrapy爬虫【1】→学习路上的坑和大家一起分享

最近迷上了爬虫，当我昨晚完成一个自己的项目的时候，一阵感慨，学习路上的坑和大家一起分享网上很多教程博客说的不全（自己深有体会，我百度N好多次，差点都放弃了爬虫），看到别人爬取某个网站，但是当你自己动手做的时候会发现啥都干不了xpath解析失败？网页都进不去？原因可能有以下几个： 1. 看看你settings.py文件里面是不是有个ROBOTSTXT_OBEY = True 2. 看看你s
复制链接

扫一扫

专栏目录