![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
爬虫
主要使用python
可大侠
真好
展开
-
爬虫常用的浏览器请求头
USER_AGENTS = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',原创 2020-11-19 19:34:33 · 1881 阅读 · 0 评论 -
fiddler实现将http请求的js转为本地的js文件
首先你要下载fiddler,下载地址自己百度,一些配置百度一下。 右边那栏的autoresponse,底下两个输入框分别是http请求的和你本地的,点击save之后,清除浏览器数据,然后刷新网页,再次寻找js网页就发现是你本地的js文件,这时候你就可以为所欲为了,得到自己想要的参数。window.console,info(参数),显示的信息是在console里面 ...原创 2018-07-29 12:51:33 · 4530 阅读 · 0 评论 -
神奇的反爬措施--大众点评
大众点评的店面详细信息比如地址,电话号码,评分等一系列的数字在f12下都找不到 只有1这个数字显示,其他的都被莫名其妙的标签占据。其实破解这个很简单,我开始以为是在页面源代码中显示(script标签内),发现并么有,只有地址是在页面内源代码显示;然后我觉得是请求ajax,就寻找新的请求里的看看是否返回了相应的信息,发现也没有;再然后我觉得是在js的加密,使...原创 2018-12-10 22:46:22 · 4420 阅读 · 3 评论 -
selenium直接"刚"淘宝登录
现在爬取淘宝商品必须要登录,不登录爬取商品的时候会自动重定向到登录页面,也看过许多人用selenium等自动化框架模拟登录淘宝,但是淘宝可以检测出你使用的是selenium,然后无论怎么滑块验证都失败。然后前几天看到使用pyppeteer这个异步登录淘宝,确实是可以躲过淘宝的检测,就是不是很熟悉,这个语法,导致我看不动例子,在这里问问大家,这个是什么意思,知道的评论下,谢谢。sli...原创 2018-12-25 09:46:53 · 9747 阅读 · 7 评论 -
加速爬虫:异步加载asyncio
之前就一直想学习asyncio,然后就去网上查,发现讲的花里胡哨而且异常难懂,就放弃了一段时间,今天来重新学习一下,发现了一个大佬的文章,根据例子来理解就容易多了,文章最后放上大佬的连接。 传统的单线程下载处理网页可能就像下图(来源)左边蓝色那样, 计算机执行一些代码, 然后等待下载网页, 下好以后, 再执行一些代码… 或者在等待的时候, 用另...原创 2018-12-01 14:51:38 · 3052 阅读 · 1 评论 -
利用mitmproxy进行抓包
这几天在利用mitmdump抓取手机app包的时候,一直连接不上去,非常坑,首先我是在window平台,只能使用mitmdump,当时找主机的ip的时候,没有找到我主机的ip。后来才知道怎么找到,然后找到正确的主机ip之后,要将防火墙关闭,并在手机上配置相应的信息。 1.寻找正确的ip 打开控制面板: (1)直接点击图标打开(普通程序...原创 2018-10-08 23:00:54 · 6154 阅读 · 2 评论 -
爬虫实战项目
转载Python 爬虫进公司必会项目原创 2018-10-11 22:30:42 · 2512 阅读 · 0 评论 -
爬取qq音乐
今天早上闲着没事,看看qq音乐的评论爬取,当然我也没有具体的爬取哪些内容,只是分析了他的请求网址。 我总结出爬取网页信息的几个方式。首先直接查看网页源代码,查看网页源代码是否有你想要的信息,如果有的话直接请求网页然后解析就行了,这是最简单的方式。不过大多数的网站都是异步加载,这时候就需要使用谷歌或者火狐浏览器的开发者模式(f12),查看请求,然后找到相应的请求网址,这样的请...原创 2018-09-26 10:15:55 · 5591 阅读 · 0 评论 -
爬取b站排行视频
这个b站之前一直想爬,看了几篇关于这个的博客,发现好难,今天耐不住就找了比较新的一篇博客讲述爬取b站视频。本来以为还要破解js加密获取加密参数,发现并没有这么复杂,视频下载的连接都在网页里保存,ε=(´ο`*)))唉。话不多说开始搞起。 所需环境:pycharm+python3.6+requests+re+pyquery+fiddler (re是提取网页里面下载的连...原创 2018-08-21 12:09:33 · 7704 阅读 · 2 评论 -
使用fiddler抓取安卓模拟器包
如图1所示,先设置好提琴手 配置路径: 工具 - > Fiddler选项 - > HTTPS - >三个选项全部勾选 如下图所示: 重启软件 2配置模拟器 长按WLAN信号,点击修改网络 点击显示...原创 2018-08-22 17:29:44 · 25647 阅读 · 3 评论 -
python爬取今日头条新闻,js解密
这几天一直在研究js解密的问题,学会了不少新东西,以前见到那些加密的参数基本直接放弃,现在也可以琢磨一会进行尝试一番。我先分享一下心得,首先找到参数是在哪个js文件里面加密的,然后看看都调用了那些函数,我们自己尝试调用这些函数,我一般采用两种方式,这两种方式一般也都结合在一起。首先将js文件下载到本地,然后打开webStorm(IDE,其他jetbrains公司产品基本上都可以支持j...原创 2018-07-29 12:45:08 · 8148 阅读 · 10 评论 -
python爬取网易云音乐评论
js加密的数据爬取一直都是非常困难的,本来水平就不咋地,决定爬取网易云音乐的评论进行练习。花费了半天功夫才弄好,真的太难了,幸亏有大佬的参考https://www.zhihu.com/question/36081767/answer/386606315,不然根本不可能完成。这篇文章主要是将个解密的思想,当然每个步骤我都会详细说明,从分析api到爬取代码。学习到思路才是最重要的。 ...原创 2018-07-28 15:43:51 · 5416 阅读 · 9 评论 -
关于selenium获取cookie然后实现免登录
这几天一直想搞明白cookie的爬虫使用,结果从昨天晚上开始试验,selenium获取的cookie怎么也无法实现直接登录,气的想打人。在刚才终于发现一些问题,在和浏览器中的cookie对比发现格式不一样,然后对着他进行格式改变,结果终于成功了,现在以一个模拟登录扣扣空间的例子:这是模拟点击登录扣扣空间我请求的这个网址是在分析的时候发现的,发现登录二维码是在一个这样的页面里,这...原创 2018-06-06 12:21:54 · 65611 阅读 · 12 评论