scrapy爬虫【1】→学习路上的坑和大家一起分享

最近迷上了爬虫,当我昨晚完成一个自己的项目的时候,一阵感慨,学习路上的坑和大家一起分享
网上很多教程博客说的不全(自己深有体会,我百度N好多次,差点都放弃了爬虫),看到别人爬取某个网站,但是当你自己动手做的时候会发现啥都干不了

xpath解析失败?网页都进不去?

原因可能有以下几个:
1. 看看你settings.py文件里面是不是有个ROBOTSTXT_OBEY = True
2. 看看你settings.py文件里面USER_AGENT有设置么?
3. 如果你用了pipelines看看settings.py里面ITEM_PIPELINES有打开么?
4. 获取不到某个div、span这些元素说明网页是用javascript进行动态加载的,而浏览器中的xpath工具只能获取到网页源码中的东西。

最坑的莫过于ROBOTSTXT_OBEY = True,都不报错,返回码也是正常的200。这东西简单的来说就是爬虫(robot机器人)规定:不能爬取我不想给你爬的东西
Me:我去,现在反爬虫多成啥了,你区区一个文本文件就能不让我爬了?你好歹整点有技术含量的东西吧。
改为 FALSE或者干掉这句话就好了

USER_AGENT这个东西也有点坑,不过还算是有点技术含量了吧,比起上面那个好多了,现在大型网站都有反爬机制,会检测你请求的内容,你如果连个最基础的浏览器信息都没有,那你肯定是非人类了啊,肯定给你返回个300或者302啥的你一看也能明白可能不让你进去
加一个 USER_AGENT=’Mozilla/5.0 (Windows NT 6.1; rv:40.0) Gecko/20100101 Firefox/40.0’ 也可以改成别的

后面还会写几篇文章大概就是:
1. 文本解析
2. 图片解析
3. 导入到mysql
3. AJAX解析
4. 模拟登陆

希望和大家一起进步

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值