
爬虫相关
爬虫相关
奋斗吧-皮卡丘
我的B站(可以放松一下):https://space.bilibili.com/391953214
我的第一个个人博客:https://zhaojiafu.github.io/
保持好奇心,开始养成记录学习笔记的习惯吧,加油!!!喜欢听音乐,热爱技术。
【我坚信:学习中遇到问题时,要习惯于多思考,根据已经掌握的知识举一反三;搞不懂的,可以使用Google搜索引擎,大部分常见的问题都会有答案;遇到问题不论大小马上就去请教“高手”不是明智之举,自己研究出来的答案远比你从“高手”那里得到的现成答案要记忆深刻,也更有利于你今后的学习。希望自己成为高手的人,从不会放弃自己独立思考问题的机会。】
-
原创 对于文本中含有Unicode编码和"时,如何提取出想要的字符串
文章目录一、问题说明:二、最终找到一个解决方法:1、有问题的文本:2、先把Unicode的编码转换:3、使用lxml模块或者bs4提取需要的数据:4、最后提出的结果就是我需要的数据:三、总结:至此,我的笨方法解决过程就这么多了,如果有简单方法的大佬,还望不吝赐教哈,谢谢。一、问题说明:今天爬取一个页面,但是获取的文本确实有点问题,将近几个小时都在搞这个问题,刚开始想着直接使用正则把所有中文和中...2019-11-18 18:43:25191
0
-
原创 python 爬虫之序列化html问题(类似\u003)
文章目录一、需求:二、处理(很简单)三、使用lxml模块或者pyquery模块处理html需求:方法1、使用pyquery模块方法2、使用lxml 模块的etree方法比较:一、需求:我最近爬虫爬取了一个json数据,里面的是html格式,但是爬到之后,响应内容是json格式,让我纠结了好久不知道怎么转换:(比如)"title": "2019年\u003cem\u003epython\u0...2019-05-24 11:07:412024
0
-
原创 python 使用execjs执行接js解密时报错execjs UnicodeDecodeError: 'gbk' codec can't decode byte
文章目录需求:一、报错内容二、解决方法:需求:python使用execjs执行解密js代码时候,发现报错,然后经过俩个多小时最终找到问题所在,解决问题。一、报错内容报错内容:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa1 in position 26: illegal multibyte sequence具体:Excep...2019-08-21 19:03:072677
21
-
原创 chrome 断点调试技巧
文章目录1、全局搜索2、打断点、3、一步一步打断点,有函数进入4、跳出当前循环和函数1、全局搜索2、打断点、搜索之后点击行数前的数字,然后刷新即可。3、一步一步打断点,有函数进入点击下面的绿点或者按F114、跳出当前循环和函数点击上一个绿点的右侧的点,或者shift + F11...2019-05-30 17:41:34109
0
-
原创 user-agent 批量汇总+随机返回一个
文章目录1、需求:爬虫时需要模块浏览器user-agent,这时如果可以随机得到一个user-agent,会非常方便。2、汇总的user-agent文件3、每次返回一个user-agent。4、如果只是需要uset-agent,到第三步就可以了。1、需求:爬虫时需要模块浏览器user-agent,这时如果可以随机得到一个user-agent,会非常方便。本来我是用fake_useragent,...2019-05-17 13:28:271284
0
-
原创 爬虫之1--响应编码发爬
本次分析爬虫中的寻找响应乱码,找到正确编码格式的俩种方法:方法1编码加密,一般响应之后进行解码即可,但是除了单个字体js加密的除外,那种需要其他方法。一般编码格式有utf-8、gbk、gb2312,如果preview和response的内容一直,则编码就是utf-8.如下加密情况,可以看出不是utf-8的编码格式,需要进行对应的解码:然而响应的内容却是正常的,从文中找到charset...2019-04-28 17:31:58133
0
-
原创 总结下一年半前大牛测试的购买的代理结果做下购买代理使用推荐
文章目录说明:参考的文章:说明:这个如果是大牛2018.2测试的,我今天看到已经快俩年了,不保证还是这样价格和质量,如果好的网站估计代理ip质量更好了也说不定呐:参考的文章:参考博客:...2019-10-17 13:14:45199
0
-
原创 获取高匿代理ip的步骤思路(推荐使用--刚找到的方法判断是否高匿)
一、获取高匿代理IP思路注意事项做第二步之前你需要先找个地址url,用本机访问出来一个成功的页面,建议保留为html,作为后面使用,进行成功和禁用页面的对比,然后才可以高频访问此网站使你的电脑禁用。获取高匿的可用代理ip,可以用以下四个步骤:第一步:获取代理ip,比如快代理,66代理,西刺代理等一些代理IP网站爬取第二步:找一个容易禁止代理IP的网站,我选择是孔夫子,进行高频率线程访问孔...2019-03-13 11:25:137421
0
-
原创 scrapy 爬虫之添加代理IP俩种方式
方式一:一.重写start_request方法 def start_requests(self):中写入 yield scrapy.Request(url=url, meta={'proxy': 'http://117.90.2.212:9000'}, callback=self.parse)方式二二、在中间件中加入代理IP,在把中间的类名加入setting中。1.在middlewa...2019-01-18 16:07:51758
0
-
原创 windows 10 安装一个好用爬去视频利器annie + 安装scoop(window包管理器)
文章目录一、起由二、下载:1、了解怎么安装:2、安装scoop(window包管理器)3、安装annie4、下载一个是视频测试:一、起由今天在关注的公众号里面看到一个爬去视频的好用的github项目,和之前使用的you-get、youtube-dl和pytube差不多,所以想下载下来试试,看看到底如何。二、下载:项目地址:https://github.com/iawia002/annie1、了解怎么安装:结果发现windows系统有俩种安装方法,但是我都不知道是什么玩意。然后百度搜索发现,这2020-08-17 22:32:00569
0
-
原创 window10下安装Charles及简单配置
文章目录说明一、安装:二、简单配置1、配置证书:2、配置端口号:3、开启 SSL 监听说明之前都是使用fiddler,今天打算了解学习一下Charles 的使用。官网地址:官方网站:https://www.charlesproxy.com下载链接:https://www.charlesproxy.com/download一、安装:下载地址:进入之后,选择需要的下载,(可能会有点慢)...2020-03-12 15:54:421401
1
-
原创 爬虫之lxml报错:ValueError: Unicode strings with encoding declaration are not supported. Please use bytes
文章目录说明:问题以及解决过程。最终的解决方法:说明:先说明一下,不要问我网站,因为工作原因,网站不会给你,还望谅解。如果你使用lxml提取数据是报的错误和标题差不多,可以来参考参考我的解决方法,因为我也是第一次遇见这种问题,所以记录下来。问题以及解决过程。今天测试一个网站,然后遇见一个问题,使用reqest请求,直接使用resp.text,返回的数据是没有问题的。测试代码如下:resp...2020-01-08 15:33:181448
0
-
原创 request之post发送Request Payload请求解决方案
文章目录说明:1、截图看看具体大概结构:2、具体代码中使用说明:这个问题,是我今天测试一个网站(具体网站我就不写出来了,如果遇到类似的Request Payload请求参考即可。)然后各种尝试,就很纳闷了,这样的post真的第一次见呀,然后安装之前的怎么发送就失败。最后使用json序列化,作为请求体,发送post,就成功了。1、截图看看具体大概结构:具体就是这种,之前的post,我们直接...2019-10-23 17:51:175570
0
-
原创 Scrapy爬虫错误
Scrapy爬虫一个页面也爬取不到报错:[scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)解决方法俩种:方法1,在settings.py中添加用户代理: USER_AGENT = 'Mozilla/5.0 (Macintosh; Int...2019-01-17 17:11:091361
0
-
原创 python 之xpath定位几个重要使用方法
xpath定位标签starts-with 顾名思义,匹配一个属性开始位置的关键字contains 匹配一个属性值中包含的字符串text()匹配的是显示文本信息,此处也可以用来做定位用eg://input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字的页面元素//input[contains(@name,'na')]...2019-01-18 14:19:10153
0
-
原创 python you-get下载哔哩哔哩视频
有时候需在哔哩哔哩找一些视频,所以用python爬取试试,在网上搜了一下。1、安装you-get 模块 pip install you-get2、查看帮助!3、cmd中命令下载列表下载: you-get -o E:\003_video\002bilibili\TensorFlow https://www.bilibili.com/video/av14540765/?p=1 -l...2019-02-13 10:01:115023
4
-
原创 window系统每天定时更新python安装包
1、安装更新包代码import osos.system('pip list --outdated --format=columns')os.system('pip install pip-review')os.system('pip-review --local --interactive')2、启动每天定时任务这个是我的代码文件位置,一般不会动这个文件。点击...2019-02-13 10:19:44208
0
-
原创 爬取数据Unicode编码问题
数据是一个josn,需要josn序列化,在对Unicode编码进行utf-8编码后再utf-8解码后就正常了。步骤:一、josn序列号data = json.loads(response1.text)二、找到问题数据text = data['data'][0]三、编码,再解码即可print(text.encode("utf-8").decode('utf-8'))...2019-02-27 09:56:02706
0
-
原创 python 之使用selenium滑动页面下拉方式
若要对页面中的内嵌窗口中的多个滚动条进行操作,要先定位到该内嵌窗口,在进行滚动条操作使用这个方法:(其中,scall是这个div的class的名字,如过就一个这种div,直接中括号后面用0就可以,如果多个滑动div的class的name一样,需要先找找你需要下拉的div是第几个,如果是第三个,把下面[0],改为[2]) js='document.getElementsByClassName("...2019-04-18 15:34:345505
3
-
原创 python 爬虫之报错 requests.exceptions.TooManyRedirects: Exceeded 30 redirects.
当爬虫时报错:requests.exceptions.TooManyRedirects: Exceeded 30 redirects.可以 request请求时添加allow_redirects=False,默认时allow_redirects=True,所以这样就可以解决我的问题了。resp = requests.get(url=url, headers=headers,allow_red...2019-04-25 17:54:179850
1
-
原创 python之 requests下载大文件
需求:下载一个4G的大视频,所以肯定不能直接使用response.content功能,需要使用一块一块读取的功能,相当于一个生成器,这样保证能下载而且速度还会提高,url我就不提供出来了。主要代码: name = url_video[url_video.rindex('=') + 1:] # response = requests.get(url=url_video,header...2019-05-13 14:14:363840
2
-
原创 Python爬虫之windows10安装scrapy
Python爬虫scrapy下windows下开发配置一、scrapy的配置第一次写博客,既可以分享学习,也可以记录下自己学习时遇到的问题,如果日后再需要也方便自己使用,当做补充,上网搜了好多类似的分享,总算可以弄成功了。有点小紧张,嘻嘻,加油,希望对我们学习都用帮助!(我的是win10 64位,如果不是可以搜索相关的设置,我没有尝试,我在已经装好Python3.5版本下,如果没有安装Pyth...2018-12-09 20:57:11316
0