![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 96
晴天键盘侠
在python的路上越走越远了
展开
-
python在爬取微信公众号的文章时,你可能踩过的坑我都帮你踩了(下)
python在爬取微信公众号的文章时,你可能踩过的坑我都帮你踩了(下)三、获取每篇文章的阅读量,点赞量四、使用UA代理、IP代理,设置每篇文章的爬取速度最近一直在忙没时间更新文章的下一篇,正好这几天有时间,把代码重新调整了一下,更新了里面的细节,在调整代码中发现了许多问题,主要一个就是ip代理的质量不行,哪里不行呢,往下看就知道了。三、获取每篇文章的阅读量,点赞量四、使用UA代理、IP代理,设置每篇文章的爬取速度...原创 2020-08-13 12:27:08 · 1948 阅读 · 17 评论 -
python在爬取微信公众号的文章时,你可能踩过的坑我都帮你踩了(上)
最近因为公司的需要获取一些微信公众号的文章内容,阅读量还有发布的时间等出来对比分析,开始以为挺简单,因为网上有大量的案例,但是真正做起来都是问题。一、登录微信公众平台获取cookies二、爬取一个公众号中的文章名和链接二、爬取每篇文章的阅读量首先整理一下思路:1.要想获取公众号的文章,首先需要在微信公众平台有个账号,2.找到搜索公众号的位置(这个位置在:素材管理-新建图文消息-超链接),3.抓包工具(我用的是fiddler)获取请求headers的必要参数,通过这步我们就可以获取公众号的文章链接,4.根据原创 2020-07-21 19:25:18 · 2624 阅读 · 2 评论 -
python使用PIL库将登陆验证码二阀值,调用百度识图接口baidu-aip进行验证码文字的获取,自动登录再也不怕遇到验证码登录啦
在使用selenium自动登录某个网站进行数据爬取的时候,在需要登录的时候都会遇到图片验证码的问题,下面给大家分享一下如何识别图片验证码。思路:获取登录验证码图片>>>将验证码二阀值处理>>>图片交给百度AI识图>>>识别文字交给selenium进行自动登录在开始之前,我们需要去百度AI平台注册一个账号,链接: https://ai.baidu.com/.这个只要注册个账号进去就可以了,然后点击控制台-文字识别下面我们需要创建一个应用:点进去原创 2020-06-09 18:11:24 · 265 阅读 · 0 评论 -
python在app端爬数据post请求踩过的坑
最近在用python做手机app端的爬取的时候,post请求遇到的JSONparse error: Unrecognized token ‘appVersion’: was expecting(‘true’, ‘false’ or 'null)报错解决办法。下面展示一些 内联代码片这里已经拼接好请求头,data发送的数据是字典格式。data={"appVersion":"4.3.0","specialId":"{}".format(510943),"deviceId":"100d855909297978原创 2020-06-04 17:20:47 · 1069 阅读 · 2 评论