![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 83
卫公费马
失去很多,得到一些
展开
-
裂缝检测数据集爬取
”明月如霜,好风如水,清景无限 “最近,因为毕设的临近。更新的很少,不过文远下一篇资料上也差不多都找好了。前天,有位老哥因为毕设要做裂缝检测,但是没裂缝数据。所以叫文远爬一下。文远当然是选择安排了。壹百度搜图图片爬取这个我就不想多说了,毕竟网上一搜一大把,但是综合起来有个要点就是。用旧版本的百度爬取会方便一些,因为旧版百度有页码,可以翻页。但是新版百度是下拉,因此都是动态加载的。结果搜索的关键词是裂缝检测。结果后面有很多的垃圾图片(baidu fw)贰直接上网址,这个好像没有被墙:原原创 2021-04-06 00:31:46 · 2502 阅读 · 0 评论 -
对qq空间动手--selenium实践
”明月如霜,好风如水,清景无限 “终于还是忍不住对qq空间动手了啊,可惜技术不行,还没玩一天,就被qq空间电脑版给封ip了。最后连表白墙的空间都进不去了:壹下面就介绍几个selenium的问题。最直观的理解是:你的程序操纵着浏览器,自动化的进行你想进行的动作,可以是鼠标,键盘的事件。这样的好处就是网站分不清你是爬虫,因为本质上可以理解成一个按程序操作浏览器的人。首先是qq空间的登录,因为有自动登录,也不用输密码。我就直接登录了。(如果你想了了解账号密码登录,文远就不提供了(对,我是懒逼,而原创 2021-02-28 00:10:07 · 391 阅读 · 1 评论 -
爬取王者荣耀全部皮肤(好吧,只是图片)
”明月如霜,好风如水,清景无限 “话不说说,直接上。壹先进王者官网:https://pvp.qq.com/然后找到内容中心-》英雄资料:进入发现了,有全部的英雄信息:f12发现,这个很简单,每个li标签就代表一个英雄,那么点击进单独的英雄界面发现:很轻松地发现了,对应的SRC,也就是每个英雄对应皮肤的图片url。看起来,看起来相当简单啊???import requestsfrom lxml import etreeimport os import refrom bs4 i原创 2020-12-13 20:42:44 · 1017 阅读 · 3 评论 -
小伙子不讲武德,竟用Python爬取了B站上4w条马保国视频弹幕
”明月如霜,好风如水,清景无限 “文远今天看到其他公众号的b站弹幕分析,激起了一些兴趣。总的是三步:找到b站马老师专栏里播放量靠前的视频爬取视频的弹幕将弹幕持久化存储后,制作词云壹首先,找到的b站专栏的网址:url='https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30'这个是b站专门留的接口,很方便原创 2020-11-28 16:55:51 · 4229 阅读 · 10 评论 -
爬取糗事百科上的照片
”明月如霜,好风如水,清景无限 “爬取图片,是一项很常见的需求,后期文远会尝试一些反反爬策略爬取一些美妙的图片,尽请期待。壹直接分析,找到只有图片的网址:同样打开开发者模式,发现每一张图片对应一个class=“thumb”,如下图:从而找到了这样一个字段,<img src="//pic.qiushibaike.com/system/pictures/12379/123795110/medium/BWSV4O39WTP07EN5.jpg" alt="糗事#123795110" clas原创 2020-11-17 17:38:34 · 550 阅读 · 1 评论 -
爬虫小例--爬药监局(上)
”明月如霜,好风如水,清景无限 “文远最近也算是爬虫入门吧,相信后面会慢慢熟悉。壹直接上例子,爬取药监局的数据。目的是得到每家公司的详情数据,例:具体网址:http://scxk.nmpa.gov.cn:81/xk/这是主页,下面详情信息:贰分析,通过网页检查发现,主网页上没有公司相关数据,观察XHR中的Ajax请求发现,公司信息都是动态数据(方便更新),点击发现每个公司的详情信息通过ID号这个参数区别,那么可以确定思路是先得到每个公司的ID号,然后在通过ID对应每一个详细网站,同样右键原创 2020-11-17 17:30:12 · 3696 阅读 · 10 评论