
爬虫相关
文章平均质量分 73
爬虫相关
zhaojiafu666
保持好奇心,开始养成记录学习笔记的习惯吧,加油!!!
【我坚信】:学习中遇到问题时,要习惯于多思考,根据已经掌握的知识举一反三;搞不懂的,可以使用Google搜索引擎,大部分常见的问题都会有答案;遇到问题不论大小马上就去请教“高手”不是明智之举,自己研究出来的答案远比你从“高手”那里得到的现成答案要记忆深刻,也更有利于你今后的学习。希望自己成为高手的人,从不会放弃自己独立思考问题的机会。
展开
-
python request模块解决psot类型,data里面出现一个key多个value的情况
文章目录需求:方法1:方法2:方法3:需求:遇到一个网站,psot异步获取数据。但是data参数出现一个key多个value情况。尝试有以下几种解决方法。方法1:直接post类型,然后直接浏览器复制view resource。就是urlencode的一个字符串。就是get后缀的params类型。测试可行。比如:params = "offset=0&limit=10&tags%255B%255D=3&tagOperation=or&labelTags%5B%5原创 2022-04-13 15:53:13 · 843 阅读 · 0 评论 -
爬虫必备:centos7 安装 chromedriver
文章目录安装步骤:1、安装浏览器:2. 安装chromedriver1)、查看目前的chrome浏览器版本:2)、然后去下载对应的chromedriver3)、unzip解压4)、建立软连接或者复制、移动过去3、Python脚本测试:参考安装步骤:1、安装浏览器:指定yum 源wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo安装curl https://intol原创 2021-06-22 17:36:14 · 1543 阅读 · 0 评论 -
windows 10 安装一个好用爬去视频利器annie + 安装scoop(window包管理器)
文章目录一、起由二、下载:1、了解怎么安装:2、安装scoop(window包管理器)3、安装annie4、下载一个是视频测试:一、起由今天在关注的公众号里面看到一个爬去视频的好用的github项目,和之前使用的you-get、youtube-dl和pytube差不多,所以想下载下来试试,看看到底如何。二、下载:项目地址:https://github.com/iawia002/annie1、了解怎么安装:结果发现windows系统有俩种安装方法,但是我都不知道是什么玩意。然后百度搜索发现,这原创 2020-08-17 22:32:00 · 3185 阅读 · 2 评论 -
window10下安装Charles及简单配置
文章目录说明一、安装:二、简单配置1、配置证书:2、配置端口号:3、开启 SSL 监听说明之前都是使用fiddler,今天打算了解学习一下Charles 的使用。官网地址:官方网站:https://www.charlesproxy.com下载链接:https://www.charlesproxy.com/download一、安装:下载地址:进入之后,选择需要的下载,(可能会有点慢)...原创 2020-03-12 15:54:42 · 3146 阅读 · 1 评论 -
爬虫之lxml报错:ValueError: Unicode strings with encoding declaration are not supported. Please use bytes
文章目录说明:问题以及解决过程。最终的解决方法:说明:先说明一下,不要问我网站,因为工作原因,网站不会给你,还望谅解。如果你使用lxml提取数据是报的错误和标题差不多,可以来参考参考我的解决方法,因为我也是第一次遇见这种问题,所以记录下来。问题以及解决过程。今天测试一个网站,然后遇见一个问题,使用reqest请求,直接使用resp.text,返回的数据是没有问题的。测试代码如下:resp...原创 2020-01-08 15:33:18 · 6927 阅读 · 2 评论 -
对于文本中含有Unicode编码和"时,如何提取出想要的字符串
文章目录一、问题说明:二、最终找到一个解决方法:1、有问题的文本:2、先把Unicode的编码转换:3、使用lxml模块或者bs4提取需要的数据:4、最后提出的结果就是我需要的数据:三、总结:至此,我的笨方法解决过程就这么多了,如果有简单方法的大佬,还望不吝赐教哈,谢谢。一、问题说明:今天爬取一个页面,但是获取的文本确实有点问题,将近几个小时都在搞这个问题,刚开始想着直接使用正则把所有中文和中...原创 2019-11-18 18:43:25 · 1488 阅读 · 0 评论 -
request之post发送Request Payload请求解决方案
文章目录说明:1、截图看看具体大概结构:2、具体代码中使用说明:这个问题,是我今天测试一个网站(具体网站我就不写出来了,如果遇到类似的Request Payload请求参考即可。)然后各种尝试,就很纳闷了,这样的post真的第一次见呀,然后安装之前的怎么发送就失败。最后使用json序列化,作为请求体,发送post,就成功了。1、截图看看具体大概结构:具体就是这种,之前的post,我们直接...原创 2019-10-23 17:51:17 · 12527 阅读 · 1 评论 -
总结下一年半前大牛测试的购买的代理结果做下购买代理使用推荐
文章目录说明:参考的文章:说明:这个如果是大牛2018.2测试的,我今天看到已经快俩年了,不保证还是这样价格和质量,如果好的网站估计代理ip质量更好了也说不定呐:参考的文章:参考博客:...原创 2019-10-17 13:14:45 · 708 阅读 · 0 评论 -
python 使用execjs执行接js解密时报错execjs UnicodeDecodeError: 'gbk' codec can't decode byte
文章目录需求:一、报错内容二、解决方法:需求:python使用execjs执行解密js代码时候,发现报错,然后经过俩个多小时最终找到问题所在,解决问题。一、报错内容报错内容:UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xa1 in position 26: illegal multibyte sequence具体:Excep...原创 2019-08-21 19:03:07 · 8203 阅读 · 35 评论 -
chrome 断点调试技巧
文章目录1、全局搜索2、打断点、3、一步一步打断点,有函数进入4、跳出当前循环和函数1、全局搜索2、打断点、搜索之后点击行数前的数字,然后刷新即可。3、一步一步打断点,有函数进入点击下面的绿点或者按F114、跳出当前循环和函数点击上一个绿点的右侧的点,或者shift + F11...原创 2019-05-30 17:41:34 · 655 阅读 · 0 评论 -
python 爬虫之序列化html问题(类似\u003)
文章目录一、需求:二、处理(很简单)三、使用lxml模块或者pyquery模块处理html需求:方法1、使用pyquery模块方法2、使用lxml 模块的etree方法比较:一、需求:我最近爬虫爬取了一个json数据,里面的是html格式,但是爬到之后,响应内容是json格式,让我纠结了好久不知道怎么转换:(比如)"title": "2019年\u003cem\u003epython\u0...原创 2019-05-24 11:07:41 · 4737 阅读 · 0 评论 -
user-agent 批量汇总+随机返回一个
文章目录1、需求:爬虫时需要模块浏览器user-agent,这时如果可以随机得到一个user-agent,会非常方便。2、汇总的user-agent文件3、每次返回一个user-agent。4、如果只是需要uset-agent,到第三步就可以了。1、需求:爬虫时需要模块浏览器user-agent,这时如果可以随机得到一个user-agent,会非常方便。本来我是用fake_useragent,...原创 2019-05-17 13:28:27 · 2556 阅读 · 0 评论 -
python之 requests下载大文件
需求:下载一个4G的大视频,所以肯定不能直接使用response.content功能,需要使用一块一块读取的功能,相当于一个生成器,这样保证能下载而且速度还会提高,url我就不提供出来了。主要代码: name = url_video[url_video.rindex('=') + 1:] # response = requests.get(url=url_video,header...原创 2019-05-13 14:14:36 · 4823 阅读 · 2 评论 -
爬虫之1--响应编码发爬
本次分析爬虫中的寻找响应乱码,找到正确编码格式的俩种方法:方法1编码加密,一般响应之后进行解码即可,但是除了单个字体js加密的除外,那种需要其他方法。一般编码格式有utf-8、gbk、gb2312,如果preview和response的内容一直,则编码就是utf-8.如下加密情况,可以看出不是utf-8的编码格式,需要进行对应的解码:然而响应的内容却是正常的,从文中找到charset...原创 2019-04-28 17:31:58 · 347 阅读 · 0 评论 -
python 爬虫之报错 requests.exceptions.TooManyRedirects: Exceeded 30 redirects.
当爬虫时报错:requests.exceptions.TooManyRedirects: Exceeded 30 redirects.可以 request请求时添加allow_redirects=False,默认时allow_redirects=True,所以这样就可以解决我的问题了。resp = requests.get(url=url, headers=headers,allow_red...原创 2019-04-25 17:54:17 · 19643 阅读 · 3 评论 -
python 之使用selenium滑动页面下拉方式
若要对页面中的内嵌窗口中的多个滚动条进行操作,要先定位到该内嵌窗口,在进行滚动条操作使用这个方法:(其中,scall是这个div的class的名字,如过就一个这种div,直接中括号后面用0就可以,如果多个滑动div的class的name一样,需要先找找你需要下拉的div是第几个,如果是第三个,把下面[0],改为[2]) js='document.getElementsByClassName("...原创 2019-04-18 15:34:34 · 14764 阅读 · 4 评论 -
获取高匿代理ip的步骤思路(推荐使用--刚找到的方法判断是否高匿)
一、获取高匿代理IP思路注意事项做第二步之前你需要先找个地址url,用本机访问出来一个成功的页面,建议保留为html,作为后面使用,进行成功和禁用页面的对比,然后才可以高频访问此网站使你的电脑禁用。获取高匿的可用代理ip,可以用以下四个步骤:第一步:获取代理ip,比如快代理,66代理,西刺代理等一些代理IP网站爬取第二步:找一个容易禁止代理IP的网站,我选择是孔夫子,进行高频率线程访问孔...原创 2019-03-13 11:25:13 · 17550 阅读 · 0 评论 -
爬取数据Unicode编码问题
数据是一个josn,需要josn序列化,在对Unicode编码进行utf-8编码后再utf-8解码后就正常了。步骤:一、josn序列号data = json.loads(response1.text)二、找到问题数据text = data['data'][0]三、编码,再解码即可print(text.encode("utf-8").decode('utf-8'))...原创 2019-02-27 09:56:02 · 1207 阅读 · 0 评论 -
window系统每天定时更新python安装包
1、安装更新包代码import osos.system('pip list --outdated --format=columns')os.system('pip install pip-review')os.system('pip-review --local --interactive')2、启动每天定时任务这个是我的代码文件位置,一般不会动这个文件。点击...原创 2019-02-13 10:19:44 · 436 阅读 · 0 评论 -
scrapy 爬虫之添加代理IP俩种方式
方式一:一.重写start_request方法 def start_requests(self):中写入 yield scrapy.Request(url=url, meta={'proxy': 'http://117.90.2.212:9000'}, callback=self.parse)方式二二、在中间件中加入代理IP,在把中间的类名加入setting中。1.在middlewa...原创 2019-01-18 16:07:51 · 1367 阅读 · 3 评论 -
python 之xpath定位几个重要使用方法
xpath定位标签starts-with 顾名思义,匹配一个属性开始位置的关键字contains 匹配一个属性值中包含的字符串text()匹配的是显示文本信息,此处也可以用来做定位用eg://input[starts-with(@name,'name1')] 查找name属性中开始位置包含'name1'关键字的页面元素//input[contains(@name,'na')]...原创 2019-01-18 14:19:10 · 522 阅读 · 0 评论 -
Scrapy爬虫错误
Scrapy爬虫一个页面也爬取不到报错:[scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)解决方法俩种:方法1,在settings.py中添加用户代理: USER_AGENT = 'Mozilla/5.0 (Macintosh; Int...原创 2019-01-17 17:11:09 · 5199 阅读 · 0 评论 -
Python爬虫之windows10安装scrapy
Python爬虫scrapy下windows下开发配置一、scrapy的配置第一次写博客,既可以分享学习,也可以记录下自己学习时遇到的问题,如果日后再需要也方便自己使用,当做补充,上网搜了好多类似的分享,总算可以弄成功了。有点小紧张,嘻嘻,加油,希望对我们学习都用帮助!(我的是win10 64位,如果不是可以搜索相关的设置,我没有尝试,我在已经装好Python3.5版本下,如果没有安装Pyth...原创 2018-12-09 20:57:11 · 625 阅读 · 0 评论