R爬虫 HTTP error 403.

最新推荐文章于 2024-06-25 08:34:47 发布

diao-j

最新推荐文章于 2024-06-25 08:34:47 发布

阅读量6.2k

点赞数

分类专栏： R语言文章标签： R语言爬虫

本文链接：https://blog.csdn.net/tayangdang1058/article/details/81319094

版权

本文介绍了如何使用R语言进行网络爬虫时遇到HTTP 403错误的问题。通过设置User-Agent来伪装浏览器身份，结合httr和rvest包中的函数，可以成功爬取网页信息，避免被识别为爬虫而被拒绝访问。

摘要由CSDN通过智能技术生成

目标：希望使用R语言爬取大众点评的乌鲁木齐市酒吧的基本信息

首先选择传统方法，利用R包rvest中的read_html（）读取网页信息，报错内容如下：
Error in open.connection(x, "rb") : HTTP error 403.

从浏览器进入网页，成功进入

猜测：403表示访问被拒绝，从R中进入网页被识别为爬虫，拒绝访问

解决：
使用包httr中的函数 add_headers（）设置http请求中的User-Agent(浏览器身份标志) ；
再使用包rvest中的函数 html_session （）爬取信息，html_nodes()函数用于查找标签，html_text（）用于提取标签内的文本内容，%>%表示管道操作符

library(xml2)
library(httr)
h2<-'http://www.dianping.com/search/keyword/325/0_%E9%85%92%E5%90%A7/p3'
session = h2

最低0.47元/天解锁文章

diao-j

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
R爬虫 HTTP error 403.

com/benweet/stackedit 目标：希望使用R语言爬取大众点评的乌鲁木齐市酒吧的基本信息报错：Error in open.connection(x, &amp;quot;rb&amp;quot;) : HTTP error 403. 解析：403表示访问被拒绝，浏览器进入网页后会自动发送一个浏览器标志，从RStudio中进入不会发送，在R语言中加入浏览器标志即可访问网页解决方法：library(xm...
复制链接

扫一扫