反扒
文章平均质量分 71
柳柳的博客
这个作者很懒,什么都没留下…
展开
-
爬虫 与反爬虫 及其应对措施
服务器反爬的原因爬虫占总PV(PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv)比例较高,这样浪费钱(尤其是三月份爬虫)。三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期,有大量的硕士在写论文的时候会选择爬取一些往网站,并进行舆情分析。因为五月份交论文,所以嘛,大家都是读过书的,你们懂的,前期各种DotA,LOL,到了三月份了,来不及了,赶紧抓数据,四月份分析一下,五月份交论文,就是这么个节奏。公司可免费查询的资源被批量抓走,丧失竞争力,这样少赚钱。数据可以在非登录状态.原创 2022-04-11 11:17:07 · 1781 阅读 · 0 评论 -
爬虫思路 Appium入坑前必看
首先声明一点,在爬任何数据的时候,一定不要先考虑用Appium,个人建议开始爬虫前正确的做法应该是:1.去百度和谷歌搜下这个网站有没有人分享出你要爬数据的API2.看看电脑网页有没有你要的数据,调查下好不好拿,不管好不好拿,也不要急着就开爬3.看看有没有电脑能打开的手机网站,一般格式为http://m.xxx.com或http://mobile.xxxx.com,有的话可以用F12检查抓下包,看下抓取难易程度4.看看有没有手机App,抓下App的包,看能不能抓到接口5.抓下公众号和小程序的包,看原创 2022-03-29 15:02:45 · 821 阅读 · 0 评论 -
js爬虫反扒
3、js动态网页抓取方式(重点)许多时候爬虫取到的页面仅仅是一个静态的页面,即网页的源代码,就像在浏览器上的“查看网页源代码”一样。一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的,下面两种方案,可用来python爬取js执行后输出的信息。① 用dryscrape库动态抓取页面js脚本是通过浏览器来执行并返回信息的,所以,抓取js执行后的页面,一个最直接的方式就是用python模拟浏览器的行为。WebKit 是一个开源的浏览器引擎,python提供了许多库可以调用这个引擎,d原创 2022-02-24 13:23:35 · 2538 阅读 · 0 评论 -
python 爬取google总结
1.问题目前主流的搜索引擎,非google莫属,但其对于非法(流量异常、爬虫)请求的封锁也是异常严厉本人前段时间有个脚本用到了谷歌搜索,具体见python之由公司名推算出公司官网(余弦相似度)当时直接使用的是一个python开源项目但在使用过程中,单ip的情况下爬取速度可谓感人,稍不留神还会被封,所以对于获取谷歌搜索结果的爬虫有必要进行改进说一说爬取谷歌搜索结果的问题:1.正常打开谷歌搜索,然后审查元素想获取目标内容的时候,会发现是一大串js。2.访问过快就会出现流量异常2.如何解决对于第一原创 2021-11-11 12:04:57 · 5754 阅读 · 0 评论 -
python爬虫br gzip default 压缩引起中文乱码
使用python3做爬虫的时候,一些网站为了防爬虫会在请求头设置一些检查机制,因此我们就需要添加请求头,伪装成浏览器正常访问。字段情况,详见下表:请求头字段 说明 响应头字段Accept 告知服务器发送何种媒体类型 Content-TypeAccept-Language 告知服务器发送何种语言 Content-LanguageAccept-Charset 告知服务器发送何种字符集 Content-TypeAccept-Encoding 告知服务器采用何种压缩方式 Content-Encoding原创 2021-11-09 16:33:19 · 1328 阅读 · 0 评论 -
pyppeteer进阶技巧
pyppeteer进阶技巧记录一下在使用pyppeteer过程中慢慢发现的一些稍微高级一点的用法。一、拦截器简单用法拦截器作用于单个Page,即浏览器中的一个标签页。每初始化一个Page都要添加一下拦截器。拦截器实际上是通过给各种事件添加回调函数来实现的。事件列表可参见:pyppeteer.page.Page.Events常用拦截器:request:发出网络请求时触发response:收到网络响应时触发dialog:页面有弹窗时触发使用request拦截器修改请求:复制代码codin原创 2021-03-02 11:58:22 · 31 阅读 · 0 评论 -
最新版(2021年1月)知乎x-zse-86 2.0版本加密破解分析 爬虫 破解反爬思路
https://blog.csdn.net/qq_27859693/article/details/113202582?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&dist_request_id=1072784a-a776-46c4-ad3a-3ae679e1b2a2&depth_1-utm_source=distribute.pc_relevant.no原创 2021-02-22 15:02:25 · 410 阅读 · 0 评论