项目实训记录
Joker Han
这个作者很懒,什么都没留下…
展开
-
B站up信息爬取
处理反爬问题:在爬B站用户信息时,由于使用的是requests请求,访问次数过多会被B站检测到,从而封禁本机IP,这让爬取的效率大打折扣。所以现在致力于反反爬机制。首先使用到的是更换cookie:我询问了同样从事爬虫工作的同学如何进行反爬,他的方法是不断更换cookie以防止被检测。在经过测试后,确认该方法在B站无效。由于B站是直接检测访问的IP,所以更换cookie没能破除B站的反爬机制。直接使用代理池的方式:我直接更换爬虫访问的IP,首先建立代理池。代理池是从各网站的获取的免费代理,首先从获原创 2021-07-18 09:25:49 · 2984 阅读 · 0 评论 -
B站up信息爬取
上篇博客介绍了怎样在没有up主榜单排行的原创 2021-07-12 09:13:22 · 1331 阅读 · 1 评论 -
爬虫预备工作
爬虫预备工作,首先以一名up为起点,遍历其关注数,认为优质up的关注仍是优质up,这样便找到了一系列目标对象。目前只获取up的uid和昵称即可,获得大量数据后再逐个获取up详细信息。这里我使用requests包直接请求响应的url得到json格式的数据。具体操作为:通过访问https://api.bilibili.com/x/relation/followings?vmid=(uid)&pn=1&ps=20&order=desc&jsonp=jsonp可获取到up的关注用原创 2021-07-05 22:37:46 · 180 阅读 · 0 评论 -
项目实训-工作思路
B站用户爬取(目标用户是优质up,我们认为优质up的信息更全面,更适合人物建模)1.首先以哔哩哔哩创作中心所关注的up出发(认为该官方账号关注的up主是优质的),获取其所有的关注。具体做法:这里利用网页返回的request包中的信息:followingsvmid=37090048&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp3只获取返回json中的mid即up的唯一标识符uid,后续爬取中也要用到uid判断是原创 2021-07-03 23:38:25 · 163 阅读 · 0 评论 -
项目实训实践记录
本周主要工作如下:1.为项目展开做准备,配置环境。本项目使用如下图的架构:需要准备工作有:使用IntelliJ IDEA开发环境;JDK 1.8;Mysql 8.0;apache-maven-3.8.1;nodejs;redis等,我们首先熟悉了idea的使用,配置以及测试环境,连接数据库,运行demo。2.分配具体工作。鉴于组员学习方向的不同,比较熟悉python的我负责python端爬虫部分,爬虫工作完成后会增加新的任务。我的主要工作是爬取B站用户信息,具体工作细节将在明天的会议原创 2021-07-02 11:03:21 · 156 阅读 · 0 评论