r语言html_text(),R语言(代码)爬虫项目

本文以爬取热门手机型号为例

a4c26d1e5885305701be709a3d33442f.png

##1.首先加载爬虫包

library(RCurl)

library(XML)

library(reshape)​

##2.伪装表头,目的在于对方的服务器识别不到你真正的信息

myheader=c(

"User-Agent"="Mozilla/5.0(Windows;U;Windows

NT 5.1;zh-CN;rv:1.9.1.6",

"Accept"="text/htmal,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",

"Accept-Language"="en-us",

"Connection"="keep-alive",

"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"

)

##3.写地址​

a00url

temp

##4.进行转码

temp1

Encoding(temp1) #UTF-8

k

#选择UTF-8进行网页的解析

​##5.写出想抓取的地方

tables

###此处​//h3/a/text()是爬取源代码此处的唯一text

a4c26d1e5885305701be709a3d33442f.png

​model

a00

#从XMLNodeSet转化为character格式

a00

a00

data1

##6做一个目标网页的字典表,字典表为不同价格的前1-5页,效果如下

a4c26d1e5885305701be709a3d33442f.png

​series

page_num

urllist

k

url

output

for(i in 1:length(series))

{

for (j in 1:length(page_num))

{

urllist[j]

}

output[[k]]

k

}

output

​##7循环爬取网页目标

​for (i in 1:length(output))

{

url

temp

temp1

k

#选择UTF-8进行网页的解析

model

table

#从XMLNodeSet转化为character格式

table

table

data2

data1

}

​##最终效果如下

a4c26d1e5885305701be709a3d33442f.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值