R语言在当当网页面爬取时遇到的读取错误问题解决

在使用R语言爬取当当网页面时,遇到读取编码问题,尝试了GBK和GB2312均失败。通过html_encoding_guess找到最佳编码ISO-8859-1成功读取,但利用xpath抓取数据时出现空结果。问题在于提供的xpath路径错误,实际div层应为2而不是3,修正后问题解决。
摘要由CSDN通过智能技术生成

1、在进行数据抓取的过程中,看到其他作者的文章中说明道需要在读取过程中改encoding的命令,但是改了“gbk”,以及“gb2312”都不行。错误如下:

web<-read_html("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1",encoding = "GBK")


Error in read_xml.raw(raw, encoding = encoding, base_url = base_url, as_html = as_html,  : 
  input conversion failed due to input error, bytes 0xAA 0xE5 0xA3 0xAB [6003]

2、借鉴了其他作者的方法,利用以下的命令查找了最优的编码

html_encoding_guess("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1")
        encoding language confidence
       ISO-8859-1       en       0.48
       ISO-8859-2       hu       0.18

       ...以下略

最终根据提示换了编码“ISO-8859-1”,可以正常读取。

3、但是是在利用以下代码抓取相应的数据时,发现读取的结果为empty

position<-web %>% html_nodes(xpath="/html/body/div[2]/div[3]/div[

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值