自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 2021-07-26

爬虫后期下面的任务是分别爬取每个up的视频信息,提取视频信息关键词来反映up主具备的关键词。这里我们使用的是每个up主的最多播放的视频。获取的信息包括标题,简介,播放量,点赞数,收藏数,发布日期,还有最重要的标签。视频的标签很大程度上反映了视频的内容,抓取的标签信息将成为反映视频信息的重要依据。在爬取过程中也遇到了很多细节问题,不过有了爬up主信息的经验,整个的视频信息爬取过程还是比较顺利的。...

2021-07-26 19:51:16 95

原创 B站up信息爬取

处理反爬问题:在爬B站用户信息时,由于使用的是requests请求,访问次数过多会被B站检测到,从而封禁本机IP,这让爬取的效率大打折扣。所以现在致力于反反爬机制。首先使用到的是更换cookie:我询问了同样从事爬虫工作的同学如何进行反爬,他的方法是不断更换cookie以防止被检测。在经过测试后,确认该方法在B站无效。由于B站是直接检测访问的IP,所以更换cookie没能破除B站的反爬机制。直接使用代理池的方式:我直接更换爬虫访问的IP,首先建立代理池。代理池是从各网站的获取的免费代理,首先从获

2021-07-18 09:25:49 2856

原创 B站up信息爬取

上篇博客介绍了怎样在没有up主榜单排行的

2021-07-12 09:13:22 1172 1

原创 爬虫预备工作

爬虫预备工作,首先以一名up为起点,遍历其关注数,认为优质up的关注仍是优质up,这样便找到了一系列目标对象。目前只获取up的uid和昵称即可,获得大量数据后再逐个获取up详细信息。这里我使用requests包直接请求响应的url得到json格式的数据。具体操作为:通过访问https://api.bilibili.com/x/relation/followings?vmid=(uid)&pn=1&ps=20&order=desc&jsonp=jsonp可获取到up的关注用

2021-07-05 22:37:46 156

原创 项目实训-工作思路

B站用户爬取(目标用户是优质up,我们认为优质up的信息更全面,更适合人物建模)1.首先以哔哩哔哩创作中心所关注的up出发(认为该官方账号关注的up主是优质的),获取其所有的关注。具体做法:这里利用网页返回的request包中的信息:followingsvmid=37090048&pn=1&ps=20&order=desc&jsonp=jsonp&callback=__jp3只获取返回json中的mid即up的唯一标识符uid,后续爬取中也要用到uid判断是

2021-07-03 23:38:25 133

原创 项目实训实践记录

本周主要工作如下:1.为项目展开做准备,配置环境。本项目使用如下图的架构:需要准备工作有:使用IntelliJ IDEA开发环境;JDK 1.8;Mysql 8.0;apache-maven-3.8.1;nodejs;redis等,我们首先熟悉了idea的使用,配置以及测试环境,连接数据库,运行demo。2.分配具体工作。鉴于组员学习方向的不同,比较熟悉python的我负责python端爬虫部分,爬虫工作完成后会增加新的任务。我的主要工作是爬取B站用户信息,具体工作细节将在明天的会议

2021-07-02 11:03:21 148

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除