爬虫只能爬一ye_R语言网络爬虫(一)入门：爬B站

最新推荐文章于 2023-08-03 21:45:41 发布

weixin_39618956

最新推荐文章于 2023-08-03 21:45:41 发布

阅读量394

点赞数

文章标签：爬虫只能爬一ye

本文链接：https://blog.csdn.net/weixin_39618956/article/details/113366760

版权

这篇博客介绍了如何使用R语言进行网络爬虫，以爬取B站上关于Nike的视频标题、观看数、上传时间和UP主信息为例。首先，设置了系统语言为中文避免乱码，然后加载了rvest和tidyverse库。接着，通过Chrome的Selector Gadget工具获取了视频标题等相关元素的ID，并解析出所需数据。最后，将爬取到的信息整理成数据表，每页爬取20个视频并处理了异常数据。

摘要由CSDN通过智能技术生成

本文将用爬取B站上的视频标题为例介绍R语言网络爬虫入门。

防止中文显示乱码，设置系统语言为中文

Sys.setlocale("LC_ALL","Chinese")

加载rvest，tidyverse

library(rvest)library(tidyverse)

在bilibili上搜索nike

B站搜索nike的网址为 https://search.bilibili.com/all?keyword=nike&page=1

url="https://search.bilibili.com/all?keyword=nike&page=1"

读取这个URL的HTML

html  read_html(url)

下载chorme浏览器的selectoer gadget

使用chorme浏览器的selectoer

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39618956

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

爬虫项目（五）：抓取网页所有图片

全栈川川

09-19

2727

抓取网页所有图片

简单R语言爬虫

weixin_30426879的博客

03-10

345

R爬虫实验 R爬虫实验 PeRl 简单的R语言爬虫实验，因为比较懒，在处理javascript翻页上用了取巧的办法。主要用到的网页相关的R包是: {rvest}. 其余的R包都是常用包。 library(rvest) library(stringr) library(dplyr) library(ggplot2) ...

参与评论您还未登录，请先登录后发表或查看评论

哔哩哔哩分区视频详细信息爬取（三连、播放量、标签）等

南岛鹋

09-04

7290

因为上手练习一个自己的数据分析项目，因此需要爬取数据。经历过两个版本的更新后，终于写出了第三版。期间也学会了selenium库的运用，API接口的调用，IP池等。确定目标因为想要一个量大的数据集，因此没有考虑热榜排名，因为所有区加起来也才一千左右。全部视频信息的话技术不行，然后就盯上了分区榜。从这个榜单可以选择时间段，可以根据每个月的视频热度排名等信息，来分析月度热点，哪些视频更加容易火，以及各种因素对视频播放量的影响。虽然只是一个小分区月度热度排名，并不包含全部视频，但是数据量也是极大的。下图.

萌新学习Python爬取B站弹幕+R语言分词demo说明

findhappy117的博客

03-04

1225

代码地址如下：http://www.demodashi.com/demo/11578.html 一、写在前面之前在简书首页看到了Python爬虫的介绍，于是就想着爬取B站弹幕并绘制词云，因此有了这样一个简单的尝试，从搭建环境到跑通demo，不懂语法，不知含义，装好环境，查到API，跑通Demo，就是目标！纯零基础萌新！关于环境的安装及调试过程中遇到的问题记录请移步二、Python爬取B站弹幕环境

【自学笔记】R语言简单动态网页爬虫——以b站视频信息为例

qq_41483767的博客

06-08

2641

1、网站信息及爬虫目标以b站某up主的视频主页https://space.bilibili.com/2206456/video为例，要爬取该up主的所有视频标题、播放量及评论，主要采用的是动态网页中常用的httr包，现观察我们的网页情况如下：可以看到，相关的信息可以由network里的“search?mid=......"这个接口得到，查看Preview可看到里面有相应的作者，评论，发布动态的描述、视频标题，观看数、分区等信息，我们以评论数、观看数和标题为例。现在看相应的Headers情况：

R语言网络爬虫经验

R语言中文社区

02-18

3863

作者：黄天元，复旦大学博士在读，目前研究涉及文本挖掘、社交网络分析和机器学习等。希望与大家分享学习经验，推广并加深R语言在业界的应用。邮箱：huang.tian-yuan...

R网络爬虫

李松雨的专栏

05-05

1734

网上关于R的网络爬虫少之又少，即使找到代码，由于各方面原因总是不能成功运行。对于搞数据分析的筒子们来说，从互联网上获取数据是非常重要的，于是决定自己写一个简单的基于R的网络爬虫，然后共享出来供大家参考。所扒的数据为新浪财经—股票---中国银行---历史信息中的第一页表格数据，连接：中国银行。 library(RCurl) temp=getURL ("http://vip

R语言：rvest 包

weixu22的博客

02-02

1万+

1、rvest介绍网络爬虫是讲呈现在网页上以非结构格式（html）存储的数据转化为结构化数据的技术，该技术非常简单易用。 rvest是R用户使用率最多的爬虫包，它简洁的语法可以解决大部分的爬虫问题。基本使用方法：使用read_html读取网页；通过CSS或Xpath获取所需要的节点并使用html_nodes读取节点内容；结合stringr包对数据进行清理。 ...

Python程序员自制爬虫小程序, 瞬间爬取十几万美女图片

python学习+VX：YYQX2209

09-02

2017

最近对python爬虫感兴趣，于是也依葫芦画瓢试着用爬虫爬取之前喜欢的网站上的美女图片，其中每一套图都是一张一个页面，存一套图如果是手动得点翻几十个页面，但现在用爬虫的话，就很方便了，只需输入套图的id，轻轻松松就可以把美女存到硬盘了。 1.目标网址 url：http://www.mm131.com/xinggan/2373.html 2.源代码分析 F12可以找到如下2行内容 s...

爬虫基础

weixin_43229078的博客

04-24

8842

Python爬虫从入门到高级： scrapy框架：通用爬虫：百度，360，搜狐，谷歌，必应原理：抓取网页，采集数据，数据处理，提供检索服务聚焦爬虫：根据特定的需求，抓取指定的数据思路：代替浏览器上网网页的特点：1.都有自己的url,2. 网页内容都是url结构的，3.使用的都是http,https的协议步骤：1、给一个url 2、写程序模拟浏览器访问url 3、解析内容，提取数据 ...

100天精通Python（进阶篇）——第34天：正则表达式大总结（基础+代码实战）

热门推荐

努力让自己发光，对的人才能迎着光而来

04-18

3万+

文章目录每篇前言一、正则表达式概述1、语法大全2、修饰符 - 可选标志3、实例简单字符匹配二、re 模块1、re模块操作2、匹配单个字符3、匹配多个字符4、匹配开头结尾5、匹配分组6、高级用法7、python贪婪和非贪婪8、r的作用9、实战案例 ...

Java爬虫入门详解（Selenium）

weixin_64987028的博客

05-21

1146

目录一、Selenium简介二、Selenium组成三、Selenium特点四、案例演示 1.下载驱动包 2.创建项目并导入依赖 3.基础配置 4.效果演示 1.元素选择方式 2.在文本框中输入内容 3.获取单个元素 4.获取多个元素五、爬取JD商品信息 1.初始化设置 2.获取京东网站首页查询按钮并完成点击事件（进入页面自动查询） 3.设置滚动条移动到最下...

R语言爬虫

樊芳芳的博客

04-29

1万+

1.简单爬取一个网页 url<-“http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml” tbls<-readHTMLTable(url) sapply(tbls,nrow) NULL NULL 93 8 pop<-readHTMLTable(url,which...

【python爬虫】requests爬取BiliBili(b站)站视频

weixin_41369892的博客

11-09

2485

import requests import re import os class BiliBiliSpider(): def __init__(self, av_num): self.av_num = av_num self.url = 'https://www.bilibili.com/'+self.av_num self.header...

B站的一点点东西的爬取

WjoKe的博客

06-28

1597

B站的一些东西的爬取吼吼吼，在B站科技区（舞蹈区）学习的时候，突然发现可不可以爬取B站的一些东西呢？ just do it 1、分析网站，详情页网址构造爬取的网址（搜索词：抖音）可以看到，这是一页一页的翻页的，而且告诉了最后一页，这不可谓不良心网站了。而我要做的是点进去每一个视频去得到里面的内容。也就是上面圈出来的内容了，不是吧，阿sir这随手一点就是plmm。hhh 好！观察（看）完后，进入网页检查部分，要得到每个视频的详情网址。可以看到，这里可以得到详情页的网址，那么这里后续将会采取Xp

爬虫实战：爬取bilibiliTop100条热门视频信息

qq_49005782的博客

04-28

6127

BiliBili爬取弹幕制作词云