我下载了一个包含巴西城市列表的网页。字符串来作为载体如下将默认html编码转换为R中的UTF-8或latin1
vector_cities = strsplit("Nova Lima,São Paulo,Contagem,Rio de Janeiro,Rio de Janeiro,São Paulo,Castanhal,Diadema,Rio de Janeiro,Rio Verde,Porto Alegre,Maurilândia,Samambaia,Rio de Janeiro,Passo Fundo,São Paulo,Casimiro de Abreu,Rio de Janeiro,Barueri,Santos,São Paulo,São Paulo,Goiânia,Pelotas,Rio de Janeiro", ",")
vector_cities
[1] "Nova Lima" "São Paulo" "Contagem" "Rio de Janeiro" "Rio de Janeiro"
[6] "São Paulo" "Castanhal" "Diadema" "Rio de Janeiro" "Rio Verde"
[11] "Porto Alegre" "Maurilândia" "Samambaia" "Rio de Janeiro" "Passo Fundo"
[16] "São Paulo" "Casimiro de Abreu" "Rio de Janeiro" "Barueri" "Santos"
[21] "São Paulo" "São Paulo" "Goiânia" "Pelotas" "Rio de Janeiro"
我了解上述特殊字符的编码,因为这是HTML的默认编码,但是,我已经试过的
iconv(vector_cities, from = "anything", to = "anything")
,他们许多排列例如,没有返回S(代码)o =São或Sao。调用Encoding(vector_cities)结果在以下
[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[11] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"
[21] "unknown" "unknown" "unknown" "unknown" "unknown"
我缺少什么?我是否必须改变字符串中的某些内容才能获得正确的编码?
+1
这可以帮助可能:http://stackoverflow.com/q/5060076/4137985 –