r语言 xml html,R语言XML包readHTMLTable中文乱码

数据,例:

library(XML)

u = ‘http://tech.163.com/special/00094IGJ/top1000.html’

url= htmlParse(u, encoding=”GB2312″)

tables = readHTMLTable(url)

raw = tables[[6]]

查看raw中文显示乱码, 查看sessionInfo(),

R version 2.15.1 (2012-06-22) Platform. x86_64-pc-mingw32/x64 (64-bit) locale: [1] LC_COLLATE=Chinese (Simplified)_People's Republic of China.936 [2] LC_CTYPE=Chinese (Simplified)_People's Republic of China.936 [3] LC_MONETARY=Chinese (Simplified)_People's Republic of China.936 [4] LC_NUMERIC=C [5] LC_TIME=Chinese (Simplified)_People's Republic of China.936 attached base packages: [1] stats graphics grDevices utils datasets methods [7] base other attached packages: [1] XML_3.95-0.1 loaded via a namespace (and not attached): [1] tools_2.15.1这个与操作相关, 可以尝试更改Sys.setlocale("LC_CTYPE", "UTF-8"),但报“操作系统报告说无法执行将本地化设成"UTF-8"的请求”。在Ubuntu中使用RStudio却能正确显示中文,查看sessionInfo()R version 2.14.1 (2011-12-22) Platform. x86_64-pc-linux-gnu (64-bit) locale: [1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C LC_TIME=C [4] LC_COLLATE=C LC_MONETARY=C LC_MESSAGES=C [7] LC_PAPER=C LC_NAME=C LC_ADDRESS=C [10] LC_TELEPHONE=C LC_MEASUREMENT=C LC_IDENTIFICATION=C attached base packages: [1] stats graphics grDevices utils datasets methods [7] base loaded via a namespace (and not attached): [1] tools_2.14.1造成的原因推测是XML包编码方式与操作系统的字符编码相关。 有高手知道的具体原因的请帮忙解答下。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/16582684/viewspace-753963/,如需转载,请注明出处,否则将追究法律责任。

主题测试文章,只做测试使用。发布者:布吉卡,转转请注明出处:http://www.cxybcw.com/193303.html

×

请登录

您还未登录,请登录后再进行相关操作!

联系我们

13687733322

在线咨询:0366b3df29d772a22db951aaa271f8a6.png

邮件:1877088071@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值