R语言爬虫

1.简单爬取一个网页

url<-“http://hz.house.ifeng.com/detail/2014_10_28/50087618_1.shtml
tbls<-readHTMLTable(url)
sapply(tbls,nrow)
NULL NULL
93 8
pop<-readHTMLTable(url,which = 1)
#存储pop为CSV文档
write.csv(pop,file=”F:/pop.csv”)

2.爬取当当网图书排名及价格

library(xml2)
library(dplyr)
library(dplyr)
library(stringr))
#对爬取网页进行设定并创建数据框
i<-1:25
book_order<-data.frame()
#使用for循环进行批量数据爬取
for(i in 1:25){
+ web<-read_html(str_c(“http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-“,i),encoding=”gbk”)
#爬取书的排名,html_nodes从网页上选择节点,括号内的节点可以使用
#SelectorGadget工具得到谷歌上的网页节点,html_text()用于提取网页上的信息
+ book_rank<-web%>%html_nodes(‘.list_num’)%>%html_text()
#爬取书的名字
+ book_name<-web%>%html_nodes(‘.name a’)%>%html_text()
#爬取书的作者
+ book_author<-web%>%html_nodes(‘.star+ .publisher_info’)%>%html_text()
#爬取书的价格
+ book_price<-web%>%html_nodes(‘p:nth-child(1) .price_n’)%>%html_text()
#创建数据框并存储以上信息
+ book<-data_frame(book_rank,book_name,book_author,book_price)
+ book_order<-rbind(book_order,book)
+ }
#将数据写入csv文档
write.csv(book_order,file=”F:/R语言爬虫/book_order.csv”)

3.爬取招聘网站信息(用RStudio软件实现的)

3.1抓取一个页面
library(“rvest”)
library(“stringr”)#用于去除多余字符
#获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
#读取网页信息
web<-read_html(url0)
#获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text()
#去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title)
#获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text()
#去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)]
#工作地点
location<-company<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)]
#工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)]
#发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-time[2:length(Time)]
data<-data.frame(title,company,location,salary,Time)
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)
data
write.csv(data,file=”F:/R语言爬虫/zhaopin.csv”)

3.2爬取多个页面
library(“rvest”)#用于抓取网页
library(“stringr”)#用于去除没用的字符或空格
#获取网址
url0<-“https://search.51job.com/list/000000,000000,0000,00,9,99,%25E6%2595%25B0%25E6%258D%25AE%25E6%258C%2596%25E6%258E%2598,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=
link<-list()
dat<-data.frame()
#计数器
n<-0
#加载下一页的网址
download_url<-function(url)
{
web<-read_html(url0)
link.next<-web %>% html_nodes(‘div.p_in li.bk a’) %>% html_attrs()
return(link.next)
}
#将函数封装起来
download_data<-function(url)
{
#读取网页信息
web<-read_html(url0)
#获取工作名称
title<-web %>% html_nodes(‘div.el p.t1 span’) %>% html_text()
#去除title中的空格和换行符,只保留文字
title_extr<-function(x){return(str_extract(x,’[^\r\n| ]+’))}
title<-title_extr(title)
#获取公司名
company<-web %>% html_nodes(‘div.el span.t2’) %>% html_text()
#去除第一行“公司名”,使company的行数与title的行数一致
company<-company[2:length(company)]
#获取工作地点
location<-web %>% html_nodes(‘div.el span.t3’) %>% html_text()
location<-location[2:length(location)]
#获取工资
salary<-web %>% html_nodes(‘div.el span.t4’) %>% html_text()
salary<-salary[2:length(salary)]
#获取发布时间
Time<-web %>% html_nodes(‘div.el span.t5’) %>% html_text()
Time<-Time[2:length(Time)]
return(data.frame(title,company,location,salary,Time))
}
link[[1]]<-(url0)#获取第一个网址
for(i in 2:5)
{
link[[i]]<-download_url(link[[i-1]])#获取2:5的网址
}
for(i in c(1:5))
{
if(i==1)
data<-download_data(link[i])#获取每一个页面的数据
else
#data里面有数据了,就可以直接进行数据框的拼接
data<-rbind(data,download_data(link[[i]]))
}
names(data)<-c(“工作名称”,”公司名”,”工作地点”,”工资”,”发布时间”)#对数据的表头重命名
write.csv(data,file=”F:/R语言爬虫/zhaopin1.csv”)#将数据读入csv文件
如图:
这里写图片描述

  • 11
    点赞
  • 105
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值