R语言-爬虫实战

最新推荐文章于 2024-05-08 08:13:09 发布

pdc31czy

最新推荐文章于 2024-05-08 08:13:09 发布

阅读量928

点赞数 1

分类专栏： R 文章标签： r语言 python 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/pdc31czy/article/details/126956918

版权

R 专栏收录该内容

29 篇文章 3 订阅

订阅专栏

###6.6 R语言爬虫实战

#R爬虫的两个包

#RCurl，rvest

#爬虫是一项系统性工程（“抓”“析”“存”）

#1.如何通过软件与网页进行通信

#2.下载解析网页

#3.从网页中提取目标信息

#4.将抓取到的数据存入本地数据库

##6.6.1 静态网页数据抓取利器-- rvest

#rvest数据抓取的几个核心函数：

read_html(): 下载并解析网页

html_nodes(): 定位并获取节点信息

html_text(): 提取节点属性文本信息

#例：

## 抓取某网页二手房数据 ##

# 加载所需的包

library("xml2")

library("rvest")

library("dplyr")

library("stringr")

# 对爬取页数进行设定并创建数据框

i = 1:100

house_inf = data.frame()

# 利用for循环封装爬虫代码，进行批量抓取

for (i in 1:100) {

# 发现url规律，利用字符串函数进行url拼接并规定编码

web = read_html(str_c("http://hz.lianjia.com/ershoufang/pg", i), encoding = "UTF-8")

# 提取房名信息

house_name = web %>% html_nodes(".houseInfo a") %>% html_text()

# 提取房名基本信息并消除空格

house_basic_inf = web %>% html_nodes(".houseInfo") %>% html_text()

house_basic_inf = str_replace_all(house_basic_inf, " ", "")

# 提取二手房地址信息

house_address = web %>% html_nodes(".positionInfo a") %>% html_text()

# 提取二手房总价信息

house_totalprice = web %>% html_nodes(".totalPrice") %>% html_text()

# 提取二手房单价信息

house_unitprice = web %>% html_nodes(".unitPrice span") %>% html_text()

# 创建数据框存储以上信息

house = data.frame(house_name, house_basic_inf, house_address, house_totalprice, house_unitprice)

house_inf = rbind(house_inf, house)

}

# 将数据写入csv文档

write.csv(house_inf, file = "./house_inf.csv")

#效果看page334，这里定位HTML节点信息时使用了selectorGadget选择器

##6.6.2 httr包实现对网页动态加载数据的抓取

#httr包相当于RCrul的精简版

#httr包与RCurl的核心函数对比表，page335

#例：

# install.packages(httr)

library(httr)

cookie = ""

headers = c('Accept' = 'application/json',

'User-Agent' = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.117 Safari/537.36',

'Referer' = 'http://study.163.com/courses',

'edu-script-token' = '1c1f84a1b85a48aba8a4d440552f5f69',

'Connection' = 'keep-alive',

'Cookie' = cookie)

# 构造参数信息

payload = list('pageIndex' = 1, 'pageSize' = 50, 'relativeOffset' = 0,'frontCatgoryId' = '-1')

# 二次请求的实际url

url = "http://study.163.com/p/search/studycourse.json"

# POST方法执行单词请求

result = POST(url, add_headers(.headers = headers), body = payload, encode = "json")

result

## Response [http://study.163.com/p/search/studycourse.json]

## Date: 2018-08-01 06:52

## Status: 200

## Content-Type: application/json;charset=UTF-8

## Size: 84.6 kB

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
R语言-爬虫实战

R语言爬虫实战
复制链接

扫一扫

专栏目录

pdc31czy CSDN认证博客专家 CSDN认证企业博客

码龄5年

52: 原创

38万+: 周排名

3万+: 总排名

3万+: 访问

: 等级

673: 积分

77: 粉丝

96: 获赞

6: 评论

262: 收藏

私信

关注

热门文章

分类专栏

个人笔记 15篇
Python 11篇
MATLAB 6篇
Linux 3篇
TensorFlow 8篇
R 29篇

最新评论

Linux配置Tensorflow2 GPU环境
ha_lydms: 非常不错的技术领域文章分享，解决了我在实践中的大问题！博主很有耐心，更有对知识的热忱和热爱，写了这么实用有效的分享，值得收藏点赞。
Linux配置Tensorflow2 GPU环境
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python
LINUX Drive CUDA cuDNN Anaconda TensorFlow2
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
R语言-图像分析
今天吃苹果了吗: 您好老师，想请教一下r语言可以读取bmp图像文件的文件头和位图数据吗
R语言-模型训练与调参
lhzdmxxb: >Profile = rfe(x, y, sizes = subsets, rfeControl = ctrl) >Error in rfe.default(x, y, sizes = subsets, rfeControl = ctrl) : there should be the same number of samples in x and y 请问这种错误怎么解决啊

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。