使用python scrapy爬虫爬取豆瓣的内容 学习要点笔记

项目源码地址
https://github.com/kongweiteng/douban_crawler

项目中需要修改和注意的几点

  • 项目的ITEM_PIPELINES 是指定的房价爬虫的 需要修改

  • 还有一个爬虫, 爬取房价的, 部分内容不是针对豆瓣的 需要手动修改

  • 如果pycharm中有提示不存在包, 可以点击提示进行修复, 很可能是你的本地python版本与pycharm 默认的版本不一致, 且路径不对 我的是需要从pycharm的py 3.5 改到本地的 py 2.7版本正确路径即可, 同时实现了方法的跳转, 包括python的系统函数

  • 需要自己安装补全没有的扩展

  • 项目中需要自己设置编码 否则运行可能会报错

  • 我的报错版本 py2.7, 添加如下代码

# 此时问题解决,但是在每个py脚本加上这句话太麻烦,这时我们只需在出问题的地方加上这三句话。
# 例如:我在导入matplotlib时出现编码问题,找到编码出错的文件为__init__.py 
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

另外 爬虫文件名和爬虫名不能重复 一个爬虫项目不能存在多个同名的爬虫 可以多个不同名的爬虫

DOWNLOAD_DELAY
注意设置延时 不要平频繁请求

ITEM_PIPELINES
指定执行处理item的类 多个爬虫时需要注意同步修改

DOWNLOADER_MIDDLEWARES
中间件 需要注意末尾的数字为优先级 不能重复

yield 自动传递数据到管道进行处理 数据存储等工作

输出文件是在执行爬虫的时候添加 -o 参数 +文件名

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值