html中转换utf8编码,将默认html编码转换为R中的UTF-8或latin1

最新推荐文章于 2023-11-13 10:24:13 发布

伍世棋

最新推荐文章于 2023-11-13 10:24:13 发布

阅读量326

点赞数

文章标签： html中转换utf8编码

我下载了一个包含巴西城市列表的网页。字符串来作为载体如下将默认html编码转换为R中的UTF-8或latin1

vector_cities = strsplit("Nova Lima,São Paulo,Contagem,Rio de Janeiro,Rio de Janeiro,São Paulo,Castanhal,Diadema,Rio de Janeiro,Rio Verde,Porto Alegre,Maurilândia,Samambaia,Rio de Janeiro,Passo Fundo,São Paulo,Casimiro de Abreu,Rio de Janeiro,Barueri,Santos,São Paulo,São Paulo,Goiânia,Pelotas,Rio de Janeiro", ",")

vector_cities

[1] "Nova Lima" "São Paulo" "Contagem" "Rio de Janeiro" "Rio de Janeiro"

[6] "São Paulo" "Castanhal" "Diadema" "Rio de Janeiro" "Rio Verde"

[11] "Porto Alegre" "Maurilândia" "Samambaia" "Rio de Janeiro" "Passo Fundo"

[16] "São Paulo" "Casimiro de Abreu" "Rio de Janeiro" "Barueri" "Santos"

[21] "São Paulo" "São Paulo" "Goiânia" "Pelotas" "Rio de Janeiro"

我了解上述特殊字符的编码，因为这是HTML的默认编码，但是，我已经试过的

iconv(vector_cities, from = "anything", to = "anything")

，他们许多排列例如，没有返回S(代码)o =São或Sao。调用Encoding(vector_cities)结果在以下

[1] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

[11] "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown" "unknown"

[21] "unknown" "unknown" "unknown" "unknown" "unknown"