使用python scrapy爬虫爬取豆瓣的内容学习要点笔记

最新推荐文章于 2020-07-08 00:06:44 发布

qq_24726703

最新推荐文章于 2020-07-08 00:06:44 发布

阅读量151

点赞数

分类专栏：技术记录 python爬虫

本文链接：https://blog.csdn.net/qq_24726703/article/details/90369204

版权

技术记录同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

python爬虫

2 篇文章 0 订阅

订阅专栏

项目源码地址
https://github.com/kongweiteng/douban_crawler

项目中需要修改和注意的几点

项目的ITEM_PIPELINES 是指定的房价爬虫的需要修改
还有一个爬虫, 爬取房价的, 部分内容不是针对豆瓣的需要手动修改
如果pycharm中有提示不存在包, 可以点击提示进行修复, 很可能是你的本地python版本与pycharm 默认的版本不一致, 且路径不对我的是需要从pycharm的py 3.5 改到本地的 py 2.7版本正确路径即可, 同时实现了方法的跳转, 包括python的系统函数
需要自己安装补全没有的扩展
项目中需要自己设置编码否则运行可能会报错
我的报错版本 py2.7, 添加如下代码

# 此时问题解决，但是在每个py脚本加上这句话太麻烦，这时我们只需在出问题的地方加上这三句话。
# 例如：我在导入matplotlib时出现编码问题，找到编码出错的文件为__init__.py 
# -*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

另外爬虫文件名和爬虫名不能重复一个爬虫项目不能存在多个同名的爬虫可以多个不同名的爬虫

DOWNLOAD_DELAY
注意设置延时不要平频繁请求

ITEM_PIPELINES
指定执行处理item的类多个爬虫时需要注意同步修改

DOWNLOADER_MIDDLEWARES
中间件需要注意末尾的数字为优先级不能重复

yield 自动传递数据到管道进行处理数据存储等工作

输出文件是在执行爬虫的时候添加 -o 参数 +文件名

qq_24726703

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
使用python scrapy爬虫爬取豆瓣的内容学习要点笔记

项目源码地址https://github.com/kongweiteng/douban_crawler项目中需要修改和注意的几点项目的ITEM_PIPELINES 是指定的房价爬虫的需要修改还有一个爬虫, 爬取房价的, 部分内容不是针对豆瓣的需要手动修改如果pycharm中有提示不存在包, 可以点击提示进行修复, 很可能是你的本地python版本与pycharm 默认的...
复制链接

扫一扫