html中转换utf8编码,将默认html编码转换为R中的UTF-8或latin1

我下载了一个包含巴西城市列表的网页。字符串来作为载体如下将默认html编码转换为R中的UTF-8或latin1

vector_cities = strsplit("Nova Lima,São Paulo,Contagem,Rio de Janeiro,Rio de Janeiro,São Paulo,Castanhal,Diadema,Rio de Janeiro,Rio Verde,Porto Alegre,Maurilândia,Samambaia,Rio de Janeiro,Passo Fundo,São Paulo,Casimiro de Abreu,Rio de Janeiro,Barueri,Santos,São Paulo,São Paulo,Goiânia,Pelotas,Rio de Janeiro", ",")

vector_cities

[1] "Nova Lima" "São Paulo" "Contagem" "Rio de Janeiro" "Rio de Janeiro"

[6] "São Paulo" "Castanhal" "Diadema" "Rio de Janeiro" "Rio Verde"

[11] "Porto Alegre" "Maurilândia" "Samambaia" "Rio de Janeiro" "Passo Fundo"

[16] "São Paulo" "Casimiro de Abreu" "Rio de Janeiro" "Barueri" "Santos"

[21] "São Paulo" "São Paulo" "Goiânia" "Pelotas" "Rio de Janeiro"

我了解上述特殊字符的编码,因为这是HTML的默认编码,但是,我已经试过的

iconv(vector_cities, from = "anything", to = "anything")

,他们许多排列例如,没有返回S(代码)o =São或Sao。调用Encoding(vector_cities)结果在以下

[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

[11] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

[21] "unknown" "unknown" "unknown" "unknown" "unknown"

我缺少什么?我是否必须改变字符串中的某些内容才能获得正确的编码?

+1

这可以帮助可能:http://stackoverflow.com/q/5060076/4137985 –

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值