r语言html爬虫,用R语言三行代码写爬虫

本文介绍了如何使用R语言进行网页爬虫,以下载和解析豆瓣电影TOP250的数据为例,通过理解HTML、CSS和JavaScript基本概念,利用rvest包的三行代码抓取电影名称、得分和简评。
摘要由CSDN通过智能技术生成

每当程序员们感叹“人生苦短”的时候,都会想到Python——这段子已经如同“Hello World”一样成为圈子里的流行梗——不过最近,我对Python的感觉还是发生了变化。上周末我们一群奔三的研究僧在南京碰头,我发现大多数公共管理方向的学生学习Python的原始动力来自于网页爬虫——为论文找到更好的数据;但是显然,仅就这个目的而言,新学一门编程语言还是一件不太轻松的事,加上Python3.X与Python2.X命令在语法结构上略有差异,让我越来越感觉在公共管理的江湖上,Python网页爬虫的武林地位有可能被R语言取代。

这一期就来讲讲如何用R语言写网页爬虫,我用爬虫教程惯用的案例——下载和解析豆瓣电影TOP250的数据来做具体演示;对于其他的网页爬虫方法及工具,请参阅我的另一篇文章:抓取网页数据的六种工具,那篇文章里包含一段“百度新闻”的Python爬虫代码。

我在正式装13之前,需要先来解释三个概念:HTML、CSS和 JavaScript,这有助于理解后面的代码;我假设这篇文章的读者没有修过类似“大学计算机基础”这样的课程,如果有读者学习过这门课程,下面这一部分就可以直接跳过。什么是“网页(源代码)”?纯文本

什么是“网页”?就是我们每天用浏览器打开的东西呗——不行,这个定义太感性了,我换一个更理性一点的问题——网页是怎么用代码写成的?要回答这个问题,我们不妨找来一个网页看看,就拿“京东商城”来说事儿吧,毕竟免费给老学长打广告我还是乐意的;下面是京东的主页及源代码(我用的是Microsoft Edge浏览器,网页右击“查看源”,下同;其他浏览器类似):

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值