1、在进行数据抓取的过程中,看到其他作者的文章中说明道需要在读取过程中改encoding的命令,但是改了“gbk”,以及“gb2312”都不行。错误如下:
web<-read_html("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1-1",encoding = "GBK")
Error in read_xml.raw(raw, encoding = encoding, base_url = base_url, as_html = as_html, :
input conversion failed due to input error, bytes 0xAA 0xE5 0xA3 0xAB [6003]
2、借鉴了其他作者的方法,利用以下的命令查找了最优的编码
html_encoding_guess("http://bang.dangdang.com/books/bestsellers/01.00.00.00.00.00-recent7-0-0-1")
encoding language confidence
ISO-8859-1 en 0.48
ISO-8859-2 hu 0.18
...以下略
最终根据提示换了编码“ISO-8859-1”,可以正常读取。
3、但是是在利用以下代码抓取相应的数据时,发现读取的结果为empty
position<-web %>% html_nodes(xpath="/html/body/div[2]/div[3]/div[