![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy学习笔记
文章平均质量分 68
腾阳
全网同名,欢迎关注,文章首发公号
展开
-
AI&BigData four:使用scrapy爬取网站,按照指定的格式存入txt文本的详细过程复盘
用了将近两个星期,终于对scrapy有了初步了解,并且使用scrapy来爬取到了动态加载的网页。再此给自己这两周的学习成果做一个详细的过程复盘,顺带重温下忘掉的知识。首先看看项目要求。要爬取的是左边的四个大板块里的四个小版块的文章,然后按照以下的格式保存在文档中。最终爬取的结果是这样的:接下来让我们看看具体过程是怎样的?1.打开命令行,跳转到指定文件存放的目录下,新建一个scrapy项目。如下所示...原创 2018-05-16 17:34:06 · 1418 阅读 · 2 评论 -
Missing scheme in request url: h
在使用python3.6中的scrapy爬取时遇到这个问题,Missing scheme in request url: h意思就是starts_url必须是列表的形式解决方法:将原来的start_url加上中括号,编程列表即可 ...原创 2018-08-08 09:45:55 · 3663 阅读 · 0 评论 -
'scrapy' 不是内部或外部命令和Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build To
在使用scrapy startproject ##来创建新的项目时,发现'scrapy' 不是内部或外部命令然后就pip install scrapy,结果报错了,error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools"还记得之前的一个非常重要的网址 https:...原创 2018-08-02 10:07:24 · 675 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:no active project Unknown command: crawl Use "scrapy" to see available commands
很明显第二第三图片相差了一个scrapy.cfg文件,原因在于刚才不小心删除。爬虫在爬取时首先会对这个文件进行处理。添加回来后在运行爬虫就OK了原创 2018-06-13 16:35:57 · 16752 阅读 · 1 评论 -
使用scrapy做爬虫遇到的一些坑:网站常用的反爬虫策略,如何机智的躲过反爬虫Crawled (403)
在这幅图中我们可以很清晰地看到爬虫与反爬虫是如何进行斗智斗勇的。在学习使用爬虫时,我们制作出来的爬虫往往是在“裸奔”,非常的简单。简单低级的爬虫有一个很大的优点:速度快,伪装度低。如果你爬取的网站没有反爬机制,爬虫们可以非常简单粗暴地快速抓取大量数据,但是这样往往就导致一个问题,因为请求过多,很容易造成服务器过载,不能正常工作。于是许多网站为了保护自己的服务器,往往会采用反爬虫技术来“狙击”爬虫,...原创 2018-06-13 15:21:18 · 21907 阅读 · 6 评论 -
使用scrapy做爬虫遇到的一些坑:调试成功但是没有办法输出想要的结果(request的回调函数不执行)(url去重)dont_filter=True
可以看到,当parse的第一个断点设置在第54行时能运行成功。接下来将断点设置在parse_news函数中。照理来说应该会正常输出item_1的内容,但是为什么没有办法正确输出呢?而且也没有报错啊!调试的时候,发现回调函数 parse_detail 没有被调用,这可能就是被过滤掉了,查看 scrapy 的输出日志 offsite/filtered 会显示过滤的数目。因为被去重过滤了,所以才调试不了...原创 2018-05-21 23:20:24 · 26621 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:No module named win32api报错后怎么解决?
最近在学习scrapy,在mySpider目录下执行:scrapy crawl itcast时报错 No module named win32api。既然缺少了这种模块,那就安装模块就好了。直接在命令行窗口输入pip install pypiwin32,回车然后再输入原来的命令,回车就能成功...原创 2018-05-03 15:28:39 · 1444 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:导入Module的时候总显示no module named ×××.items?
估计很多人和我遇到过这样的坑,就是scrapy做爬虫时,导入Module的时候总显示no module named ×××.items?可是检查很多遍都没发现什么大问题啊?我明明是按照教程来打的案例!!!原来这是因为编译器的问题,pycharm不会将当前文件目录自动加入自己的sourse_path。那么具体的解决方法如下:1,找到你的scrapy项目上右键2.然后点击make_directory ...原创 2018-05-03 15:51:39 · 12972 阅读 · 3 评论 -
使用scrapy做爬虫遇到的一些坑:保存信息的最简单的方法
# json格式,默认为Unicode编码scrapy crawl ++++ -o ****.json# json lines格式,默认为Unicode编码scrapy crawl ++++ -o ****.jsonl# csv 逗号表达式,可用Excel打开scrapy crawl ++++ -o ****.csv# xml格式scrapy crawl ++++ -o ***...原创 2018-05-04 09:03:24 · 1472 阅读 · 0 评论 -
使用scrapy做爬虫遇到的一些坑:No module named items以及一些解决方案
最近在学习scrapy,因为官方文档看着比较累,所以看着崔庆才老师写的博客来做:https://cuiqingcai.com/3472.html# -*- coding: utf-8 -*-import reimport scrapy # 导入scrapy包from bs4 import BeautifulSoupfrom scrapy.http import Request ##一个...原创 2018-05-05 21:04:41 · 26700 阅读 · 4 评论 -
使用scrapy做爬虫遇到的一些坑:使用xpath和CSS遇到的一些 invalid syntax
1.引号的歧义:最外面应该使用单引号 错误:正确:(占坑待填补)原创 2018-05-08 21:50:14 · 4138 阅读 · 1 评论 -
使用scrapy做爬虫遇到的一些坑:爬虫使用scrapy爬取网页返回403错误大全以及解决方案
今天学习scrapy爬取网络时遇到的一些坑的可能正常情况:DEBUG: Crawled (200) <GET http://www.techbrood.com/> (referer: None)错误情况:DEBUG: Crawled (403) <GET http://www.techbrood.com/> (referer: None)一,网址的错误一开始...原创 2018-05-04 21:57:45 · 32148 阅读 · 1 评论