爬虫
偶尔看看爬虫
Jayj1997
工作第一年
展开
-
破解b站登陆的极验滑块验证码3.0
破解b站登陆的极验滑块验证码对这个一天消费我四五个小时的破站不搞一搞说得过去吗? 编程这个东西,即使你拿着别人现成的code去写一遍也不代表你的就能跑起来,但是你遇到问题才能学习到,如果没问题反而是最差的结果。 这个代码我参考了崔庆才的网络开发爬虫实战(但说实话里面实用的有点少。我第一本花钱买的实体书就这样的。。。)但还是感谢大佬给出了标准答案源码在最下面,可以直接拿走imp...原创 2019-12-29 23:14:28 · 1937 阅读 · 6 评论 -
Python selenium使用ActionChains/move_by_offset卡顿,滑动不流畅的问题
@TOCPython selenium使用ActionChains/move_by_offset卡顿,滑动不流畅的问题真的被这个东西搞死了,别人的电脑没问题,我的就有问题,为了破解滑块这个气死我了,我的代码轨迹都没问题,就是当初滑动的时候一卡一卡的,十秒可能才能拖完,根本不能正常破解,下面是解决方法:如果你有我这个问题,你就知道我在说什么,就不多赘述了在解释器里找到selenium/web...原创 2019-12-22 15:30:35 · 2963 阅读 · 2 评论 -
python爬虫遇到crypto加密
@TOC爬虫遇到crypto加密这几天疯狂加班么的时间写blog,今天处理的快,写一写之前无意见到的很厉害的网站,看了看还是网易易盾写的呢好像?全国建筑市场监管公共服务平台里的企业数据(话说这些都是公开的应该不会是面向监狱编程吧?)企业数据及详情页被加密前情提要:如果你还不知道requests或者getpost或者n多基础知识你还是先学学别的,不要老想着一步到胃 想啥呢得到的数据是这样婶...原创 2019-10-31 11:26:51 · 6505 阅读 · 8 评论 -
scrapy的start_requests无法运行
终极沙雕错误今天犯了一个终极沙雕的错误,沙雕到不能再沙雕,scrapy写的爬虫无法运行下去,到了start_requests就跳过了,最后发现是start_requests写成了start_request,我的老妈啊我几个小时就因为一个s嗝屁了ORZ...原创 2019-10-23 17:41:47 · 1516 阅读 · 0 评论 -
xpath抓不到东西之网页结构与检查的不一样和tbody问题
我的爬虫学习xpath抓不到东西之网页结构与检查的不一样tbody我怀疑是狗贼前端故意的答案xpath抓不到东西之网页结构与检查的不一样今天遇到了个更神奇的操作,xpath找不到东西!我在用scrapy的时候.xpath死活都抓不到东西,而且我的xpath绝对没写错(与检查的一致),我今天就不用正则,老子非要把你用xpath抓出来不行tbodytbody 在response里没有,这是浏览...原创 2019-10-22 17:13:25 · 1062 阅读 · 0 评论 -
Python爬虫是用多线程还是多进程
我的爬虫学习Python爬虫多线程多进程多线程多进程Python爬虫多线程多进程多线程自己的爬虫一直在用多进程,以前一直没了解过多线程,只知道多线程适合IO密集型场景,感觉自己的也不太需要,所以就一直用Multiprocessing,昨天经理让我们写多线程的爬虫,我就去学习了一下,了解到了Python有一个终极黑科技:GIL锁(global interpreter lock)任何Pyth...原创 2019-10-12 09:21:23 · 1423 阅读 · 0 评论 -
json.decoder.JSONDecodeError: Expecting value
我的爬虫学习json.decoder.JSONDecodeError: Expecting valuejson.decoder.JSONDecodeError: Expecting value今天在爬数据的时候遇到一个沙雕问题,得到的明显是个json格式的用json.loads却失败了,百度了下是因为json里必须是双引号而不是单引号(这个沙雕问题做网站的就不会出错的吗。。。),用replac...原创 2019-10-09 15:51:03 · 751 阅读 · 0 评论 -
requests遇到的各种疑难post类型
我的爬虫学习自从用了requests,头也不疼了,腰也不酸了,唯一的问题就是遇到的post格式各种各样,简直是五花八门,今天把它列出来解决一下,前提你已经会了f12分析网页一个key对应多个value表单post是一个jsonpost被加密,在里面看到csrftoken除了post里有csrftoken,还有另一个信息被加密自从用了requests,头也不疼了,腰也不酸了,唯一的问题就是遇到的p...原创 2019-09-27 17:37:50 · 603 阅读 · 0 评论 -
xpath找不到东西
我的爬虫学习xpath找不到东西xpath找不到东西上午刚出现了个xpath+text()找不到东西,下午就遇到了xpath找不到东西,这整的。。。xpath是这个/html/body/div[4]/div[2]/div[2]/ul/li[3]/table/tbody/tr[2]/td[3]/a/@href在浏览器的xpath插件也试过了没问题,问了问同事也说不知道,最后百度了一会发现...原创 2019-09-26 14:12:27 · 1158 阅读 · 0 评论 -
xpath使用text()失效
我的爬虫学习xpath使用text()失效xpath使用text()失效今天分析网页的时候,想用xpath获取一下一页里每一个二级url的标题,发现xpath写的没错,不写xpath之前也能得到标题,当然是用谷歌里的xpath插件(非常好用),然后发现加上text()之后就显示不出来了,变成了然后就百度各种答案,再分析了下网页源码,发现竟然是这么写的网页源码竟然是这么写的,这程序员是...原创 2019-09-26 09:01:47 · 2223 阅读 · 1 评论 -
requests爬取网页遇到json(response乱码)
我的爬虫学习requests爬取网页遇到jsonrequests爬取网页遇到json当你用post去获取一个网页的源码,有时候会遇到post得到的response是一堆乱码,如下{"controls":[],"custom":"{\"RowCount\": 20,\"Table\" :[{\"categorynum\":\"004001001001\",\"lbname\":\"\u5DE5...原创 2019-09-23 17:53:09 · 642 阅读 · 0 评论 -
requests爬取get\post网页及二级链接网页
我的爬虫学习requests爬取网页及二级链接网页requests获取网页requests爬取网页及二级链接网页相对于scrapy+selenium,真正上班了才发现requests是真的好用,简便快捷,不需要配置一大堆的东西,即写即用,但是有些被设置了很复杂的反爬虫网页的时候,selenium的click()方法是真的好用T.Trequests获取网页#首先importimport r...原创 2019-09-23 13:35:49 · 1410 阅读 · 0 评论