Joker Han-CSDN博客

原创 2021-07-26

爬虫后期下面的任务是分别爬取每个up的视频信息，提取视频信息关键词来反映up主具备的关键词。这里我们使用的是每个up主的最多播放的视频。获取的信息包括标题，简介，播放量，点赞数，收藏数，发布日期，还有最重要的标签。视频的标签很大程度上反映了视频的内容，抓取的标签信息将成为反映视频信息的重要依据。在爬取过程中也遇到了很多细节问题，不过有了爬up主信息的经验，整个的视频信息爬取过程还是比较顺利的。...

2021-07-26 19:51:16 95

原创 B站up信息爬取

处理反爬问题：在爬B站用户信息时，由于使用的是requests请求，访问次数过多会被B站检测到，从而封禁本机IP，这让爬取的效率大打折扣。所以现在致力于反反爬机制。首先使用到的是更换cookie：我询问了同样从事爬虫工作的同学如何进行反爬，他的方法是不断更换cookie以防止被检测。在经过测试后，确认该方法在B站无效。由于B站是直接检测访问的IP，所以更换cookie没能破除B站的反爬机制。直接使用代理池的方式：我直接更换爬虫访问的IP，首先建立代理池。代理池是从各网站的获取的免费代理，首先从获

2021-07-18 09:25:49 2856

原创 B站up信息爬取

上篇博客介绍了怎样在没有up主榜单排行的

2021-07-12 09:13:22 1172 1

原创爬虫预备工作

爬虫预备工作，首先以一名up为起点，遍历其关注数，认为优质up的关注仍是优质up，这样便找到了一系列目标对象。目前只获取up的uid和昵称即可，获得大量数据后再逐个获取up详细信息。这里我使用requests包直接请求响应的url得到json格式的数据。具体操作为：通过访问https://api.bilibili.com/x/relation/followings?vmid=（uid）&pn=1&ps=20&order=desc&jsonp=jsonp可获取到up的关注用

2021-07-05 22:37:46 156

原创项目实训-工作思路

B站用户爬取（目标用户是优质up，我们认为优质up的信息更全面，更适合人物建模）1.首先以哔哩哔哩创作中心所关注的up出发（认为该官方账号关注的up主是优质的），获取其所有的关注。具体做法：这里利用网页返回的request包中的信息：followingsvmid=37090048&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp3只获取返回json中的mid即up的唯一标识符uid，后续爬取中也要用到uid判断是

2021-07-03 23:38:25 133

原创项目实训实践记录

本周主要工作如下：1.为项目展开做准备，配置环境。本项目使用如下图的架构：需要准备工作有：使用IntelliJ IDEA开发环境；JDK 1.8；Mysql 8.0;apache-maven-3.8.1;nodejs；redis等，我们首先熟悉了idea的使用，配置以及测试环境，连接数据库，运行demo。2.分配具体工作。鉴于组员学习方向的不同，比较熟悉python的我负责python端爬虫部分，爬虫工作完成后会增加新的任务。我的主要工作是爬取B站用户信息，具体工作细节将在明天的会议

2021-07-02 11:03:21 148

qq_43808522的博客

原创 2021-07-26

原创 B站up信息爬取

原创 B站up信息爬取

原创爬虫预备工作

原创项目实训-工作思路

原创项目实训实践记录

空空如也

空空如也

原创 2021-07-26

原创 B站up信息爬取

原创 B站up信息爬取

原创 爬虫预备工作

原创 项目实训-工作思路

原创 项目实训实践记录

空空如也

空空如也

原创爬虫预备工作

原创项目实训-工作思路

原创项目实训实践记录