r语言html_text(),R语言（代码）爬虫项目

芬格尔m~~~

于 2021-05-31 08:48:43 发布

阅读量304

点赞数

文章标签： r语言html_text()

本文以爬取热门手机型号为例

##1.首先加载爬虫包

library(RCurl)

library(XML)

library(reshape)

##2.伪装表头，目的在于对方的服务器识别不到你真正的信息

myheader=c(

"User-Agent"="Mozilla/5.0(Windows;U;Windows

NT 5.1;zh-CN;rv:1.9.1.6",

"Accept"="text/htmal,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

"Accept-Language"="en-us",

"Connection"="keep-alive",

"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"

)

##3.写地址

a00url

temp

##4.进行转码

temp1

Encoding(temp1) #UTF-8

k

#选择UTF-8进行网页的解析

##5.写出想抓取的地方

tables

###此处//h3/a/text()是爬取源代码此处的唯一text

model

a00

#从XMLNodeSet转化为character格式

a00

a00

data1

##6做一个目标网页的字典表，字典表为不同价格的前1-5页，效果如下

series

page_num

urllist

k

url

output

for(i in 1:length(series))

{

for (j in 1:length(page_num))

{

urllist[j]

}

output[[k]]

k

}

output

##7循环爬取网页目标

for (i in 1:length(output))

{

url

temp

temp1

k

#选择UTF-8进行网页的解析

model

table

#从XMLNodeSet转化为character格式

table

table

data2

data1

}

##最终效果如下

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
r语言html_text(),R语言（代码）爬虫项目

本文以爬取热门手机型号为例##1.首先加载爬虫包library(RCurl)library(XML)library(reshape)##2.伪装表头，目的在于对方的服务器识别不到你真正的信息myheader=c("User-Agent"="Mozilla/5.0(Windows;U;WindowsNT 5.1;zh-CN;rv:1.9.1.6","Accept"="text/htmal,appl...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。