Python爬虫合集
文章平均质量分 69
爬虫基础和实战记录
Xin学数据
数据分析处理小能手,两年数据分析岗相关经验,一年python授课经验~~理论结合实践,做知识的传递者。
展开
-
Scrapy运行爬虫文件报错:ValueError: attempted relative import beyond top-level package
在玩scrapy框架的同学,特别是新手,可能会遇到这一个报错:ValueError: attempted relative import beyond top-level package。首先说下正确的运行姿势,在编辑器中运行scrapy项目,要运行main.py文件!!好了,问题解决了~那为什么这个不能调用父类呢?从逻辑上看,似乎是没有问题的..items是和父级同级的items文件呀?为什么会报错呢?如果想了解一下,可以继续往下~下面来解释一下,为什么不能直接调...原创 2022-07-02 10:52:58 · 486 阅读 · 0 评论 -
使用gevent库+queue模块实现多协程爬虫,提高爬取效率!
协程是干什么的?协程本质上就是减少等待的时间,提高爬取的效率。它的执行原理就是当计算机在执行某个任务的时候,如果需要等待(比如爬取网站需要等待网站响应等),可以先去执行其他的任务,等等待结束(网站响应)时,再回来继续任务。原创 2020-09-24 21:24:18 · 707 阅读 · 0 评论 -
安装scrapy的三种方法
方法一:使用pip直接安装Windows:打开cmd,输入 pip install scrapy ,回车。Mac:打开终端,输入 pip3 install scrapy,回车。方法二:使用清华镜像Windows:打开cmd,输入 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy,回车。Mac:打开终端,输入 pip3 install -i https://pypi.tuna.tsinghua.edu....原创 2020-09-22 20:58:06 · 25684 阅读 · 0 评论 -
scrapy不是内部或外部命令,windows系统和Mac系统的解决方法
辛辛苦苦把scrapy 安装完,一敲代码创建项目,结果发现系统不认得它!what ?心理奔腾着千军万马……下面分别来讲解一下windows系统和Mac系统的解决方法windows系统操作思路:找到scrapy.exe 的安装位置,把它添加到系统的环境变量中去。下面多图预警,一步步手把手教程~第一步:打开cmd,依次输入以下命令;先输入python,进入测试环境;然后调用scrapy,即import scrapy;再输入scrapy,回车。此时可以在终端看到一.原创 2020-09-22 13:43:55 · 615 阅读 · 0 评论 -
如何查看scrapy 爬取过程中的报错(附解决方法及运行结果解读)
文末有彩蛋~~常见报错及解决方法2.1 缺请求头的报错,请求403在setting文件加上请求头即可,修改完记得保存。这个会在检查完环境之后,开启爬虫准备爬取时显示出错误,看到403,一般就是被反爬了,先检查一下请求头。2.2 items没传、少传值或者不对应报错:KeyError: 'DoubanItem does not support field: title1'对应的,在items文件中,加上或修改相关的变量即可。2.3 没有项目...原创 2020-09-21 21:48:36 · 4373 阅读 · 0 评论 -
scrapy 的运行结果解读
辛辛苦苦终于把scrapy安装好,并且创建好项目、敲好代码,运行main.py文件,返回结果蒙圈了!这是什么东西,这么长!到底是不是正确的呢?????????大家是不是或多或少有这样的疑问呢?今天来跟大家分享一下怎么看scrapy项目的返回结果:1、解读终端返回结果运行main文件后,终端返回的结果主要分为3部分:1)检查调用相关的模块2)爬取数据3)数据统计下面直接来看图吧~~1.1 检查调用相关的模块1.2 爬取数据1...原创 2020-09-21 21:22:37 · 1615 阅读 · 0 评论 -
解锁scrapy报错:Unknown command: crawl
一、报错报错的界面截图:报错解析:该报错是找不到配置文件,无法执行douban 项目。可能原因如下:路径不对:没有切换路径到douban 项目下或没有把douban 文件夹添加到一个sys路径; 少了配置文件scrapy.cfg; 待补充……二、解决方法第1点报错是比较常见的,有两种解决方法:在终端切换路径,具体切换方式,可以查看前面发的一篇文章:https://blog.csdn.net/qq_45476428/article/details/108707622 在m.原创 2020-09-21 21:19:43 · 1156 阅读 · 0 评论 -
scrapy:Unknown command: crawl 的3种解决方法
一、报错报错的界面截图:报错解析:该报错是找不到配置文件,无法执行douban 项目。可能原因如下:路径不对:没有切换路径到douban 项目下或没有把douban 文件夹添加到一个sys路径; 少了配置文件scrapy.cfg; 待补充……二、解决方法第1点报错是比较常见的,有两种解决方法:在终端切换路径,具体切换方式,可以查看前面发的一篇文章:https://blog.csdn.net/qq_45476428/article/details/108707622 在m.原创 2020-09-21 21:19:16 · 12725 阅读 · 0 评论 -
scrapy 的创建和执行,萌新教程
一、scrapy 创建1.1 切换路径cmd打开方式,快捷键win+R,输入cmd,回车。下面操作在cmd中进行。1.1.1 切换盘符打开cmd之后,输入d: ,回车 ,则是转到d盘;同理,输入e: ,回车,可以转到e盘下。注意,有一个很重要的前提!!!必须有D盘或E盘才可以切换成功!!其实很好理解,这是在电商上查找路径,如果连盘符都没有,肯定会找不到路径。展示一下:我的电脑有e盘,切换成功;没有h盘,所以报错了。注意:苹果系统一般都只有一个盘,不用切换盘符。..原创 2020-09-21 13:36:17 · 4642 阅读 · 0 评论 -
requests.exceptions.SSLError 请求异常,SSL错误,证书认证失败问题解决
请求异常,SSL错误,证书认证失败解决方法在爬取一些网站的数据时,有时候会碰到以下报错:requests.exceptions.SSLError: HTTPSConnectionPool(host='martin-audio.com', port=443): Max retries exceeded with url: xxx (Caused by SSLError(SSLError("bad handshake: Error([('SSL routines', 'ssl3_get_se.原创 2020-07-10 17:17:29 · 43151 阅读 · 0 评论 -
Mac系统报错:scrapy: command not found
解决Mac系统 scrapy找不到命令问题Mac系统,安装好了scrapy,但是创建项目的时候,提示找不到命令?这个可能有几个原因:1、直接输入命令,默认是python2.7版本,Mac系统自带python2.7,而安装的是在python3版本上;2、没有添加到环境变量。针对第一个原因解决方法:指定为python3版本即可,使用以下命令:python3 -m scrapy针对第二个原因解决方法:修改/etc/profile文件,添加环境变量:输...原创 2020-07-09 13:43:38 · 1493 阅读 · 0 评论