爬虫
AI_Frank
这个作者很懒,什么都没留下…
展开
-
requests.exceptions.ConnectionError: (‘Connection aborted.‘, ConnectionResetError(10054, ‘远程主机强迫关闭了一
requests.exceptions.SSLError: HTTPSConnectionPool(host=‘‘, port=443): Max retries exceeded with url: (Caused by SSLError(SSLError("bad handshake: SysCallError(-1, ‘Unexpected EOF‘)",),))上面是python3.6中的错误,解决方法一致,都是请求频繁而造成的。这里提供一种解决方法,可能适用有可能不适用,仅供参考。 w转载 2020-12-13 16:01:22 · 5988 阅读 · 0 评论 -
timeouterror:[winerror 10060]连接尝试失败,因为连接器在一段时间后没有正确答复,或者连接的主机没有响应
最近自己的采集程序报了一个timeouterror:[winerror 10060]连接尝试失败,因为连接器在一段时间后没有正确答复,或者连接的主机没有响应的错误,经过查找资料,找到了如下的解决方法:需要在request.get()函数中加个timeout参数,如下所示:req = requests.get(url, headers=headers, proxies=proxies, timeout=5 )timeout 是用作设置响应时间( 单位:秒 )的,可以设置一个float或者一个tuple原创 2020-10-12 12:39:13 · 14335 阅读 · 0 评论 -
python解析pdf方法介绍(入门级)
python解析pdf信息,目前还是不能做到很完善,每个方法都会有它的弊端,都需要结合自己的业务场景来和其它方法一块进行使用,从而达到一个相对满意的目标。接下来主要介绍四种目前我了解到的方法(也是某博主写的,感觉很好搬运过来了)一、PyPDF2 解析 PDF 文档这里主要参考了 2019-03-07,Usman Malik 写的一篇文章:Python for NLP: Working with Text and PDF Files使用 Python 安装 PyPDF2 扩展包:pip install转载 2020-05-19 14:49:55 · 5911 阅读 · 0 评论 -
scrapy转化为scrapy-redis的三种配置方式
一、对于dmoz单机版只需要修改setting文件即可,添加以下配置(1)无密码版本REDIS_HOST="ip地址"REDIS_PORT=端口号(2)有密码版本REDIS_URL = 'redis://:【密码】【ip】:【端口号】'注:【】只是为了区分,使用时删除掉二、对于分布式直接抓取版本(1)修改对应spider的文件以下内容:name = 'myspider_re...原创 2020-04-14 14:48:49 · 565 阅读 · 0 评论 -
Scrapy配置代理过程详解
最近在学习过程中,遇到了网站的反爬机制,由于不是很严格,所以使用代理即可解决,并把自己的具体配置过程总结如下:第一步:修改middlewares文件from .settings import USER_AGENTSfrom .settings import PROXIESimport randomimport base64# 随机浏览器class RandomUserAgent:...原创 2020-04-04 16:39:42 · 1498 阅读 · 0 评论 -
scrapy项目组件介绍
最近开始研究scrapy框架的使用,第一步就是通过命令创建项目后生成的各个组件,首先要了解的就是它们的作用以及是如何进行运作的。一、工作流程1、引擎从调度器中取出一个URL链接(url)用来接下来的爬取2、引擎把URL封装成一个Request 请求传给下载器,下载器把资源下下来,并封装成应答包Response3、爬虫解析Response4、若是解析出实体(Item),则交给实体管道(pi...转载 2020-04-03 14:58:04 · 231 阅读 · 0 评论 -
使用xpath遇到的坑
最近在爬取一个网站的时候,出现了一个问题,一直获取不到指定的节点,最后经过一下午才解决,可能自己知识学的不牢固,因此打算记录下来,如果有跟我一样的,希望能给你们提供一些帮助。trList =myxml.xpath("//td[@class = \"txt16_2\"]/..")tdList[1].xpath("./a")[0].text如上面代码所示:如果想在trList基础上再进行xp...原创 2019-11-04 19:54:53 · 1950 阅读 · 0 评论