爬虫
YancyKahn
这个作者很懒,什么都没留下…
展开
-
【爬虫】爬取B站UP的所有视频细节信息(通过UP名字)
爬取B站UP主的所有视频信息1. 前言使用python来爬取B站UP的视频信息,在此之前需要安装一下模块pip3 install seleniumpip3 install bs4selenium是一个操作浏览器的Python库,需要安装相应的浏览器驱动。请自行安装。本文实现了一个可以通过输入B站某个UP主的名字来进行爬取视频信息。2. 爬取信息的数据结构爬取的信息存储到JSON中,为以下组织方式:{ 'name': XXX // 视频名称 'author': XXX //原创 2020-10-10 15:37:23 · 7953 阅读 · 20 评论 -
【爬虫】爬取B站小黑屋
爬取B站小黑屋信息由于b站更新了反爬虫策略,现在爬取B站可以采用模拟浏览器操作进行爬取。需要安装以下python模块:pip3 install selenium pip3 install bs4 使用selenium模拟浏览器操作,对小黑屋进行模拟下拉操作,可以设置下拉次数(这里要注意每次下拉后要sleep一段时间,否则网页会加载不完)。等获取到足够的页面后在进行数据清洗。from selenium import webdriverfrom bs4 import BeautifulSoup原创 2020-10-08 21:00:02 · 1157 阅读 · 2 评论