项目源码地址
https://github.com/kongweiteng/douban_crawler
项目中需要修改和注意的几点
-
项目的ITEM_PIPELINES 是指定的房价爬虫的 需要修改
-
还有一个爬虫, 爬取房价的, 部分内容不是针对豆瓣的 需要手动修改
-
如果pycharm中有提示不存在包, 可以点击提示进行修复, 很可能是你的本地python版本与pycharm 默认的版本不一致, 且路径不对 我的是需要从pycharm的py 3.5 改到本地的 py 2.7版本正确路径即可, 同时实现了方法的跳转, 包括python的系统函数
-
需要自己安装补全没有的扩展
-
项目中需要自己设置编码 否则运行可能会报错
-
我的报错版本 py2.7, 添加如下代码
# 此时问题解决,但是在每个py脚本加上这句话太麻烦,这时我们只需在出问题的地方加上这三句话。
# 例如:我在导入matplotlib时出现编码问题,找到编码出错的文件为__init__.py
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
另外 爬虫文件名和爬虫名不能重复 一个爬虫项目不能存在多个同名的爬虫 可以多个不同名的爬虫
DOWNLOAD_DELAY
注意设置延时 不要平频繁请求
ITEM_PIPELINES
指定执行处理item的类 多个爬虫时需要注意同步修改
DOWNLOADER_MIDDLEWARES
中间件 需要注意末尾的数字为优先级 不能重复
yield 自动传递数据到管道进行处理 数据存储等工作
输出文件是在执行爬虫的时候添加 -o 参数 +文件名