爬虫只能爬一ye_R语言网络爬虫(一)入门:爬B站

这篇博客介绍了如何使用R语言进行网络爬虫,以爬取B站上关于Nike的视频标题、观看数、上传时间和UP主信息为例。首先,设置了系统语言为中文避免乱码,然后加载了rvest和tidyverse库。接着,通过Chrome的Selector Gadget工具获取了视频标题等相关元素的ID,并解析出所需数据。最后,将爬取到的信息整理成数据表,每页爬取20个视频并处理了异常数据。
摘要由CSDN通过智能技术生成

本文将用爬取B站上的视频标题为例介绍R语言网络爬虫入门。

防止中文显示乱码,设置系统语言为中文

Sys.setlocale("LC_ALL","Chinese")

加载rvest,tidyverse

library(rvest)library(tidyverse)

在bilibili上搜索nike

B站搜索nike的网址为 https://search.bilibili.com/all?keyword=nike&page=1

url="https://search.bilibili.com/all?keyword=nike&page=1"

读取这个URL的HTML

html  read_html(url)

下载chorme浏览器的selectoer gadget

e555f2f78da3c3ba74b81bc999ca44f8.png

使用chorme浏览器的selectoer

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值