csv字符编码修改,中文乱码,文件格式为ISO-8859 text, with CRLF line terminators

先吐槽一句,md有点坑~

今天遇到一个问题,就是做一个csv文件进行统计的时候,我需要把数据加载到Hive表中,为了方便查询,创建外部表以后,将数据文件放到HDFS系统的目录下面以后,发现csv文件出现了中文乱码:后来查看文件格式发下如下:

文件是什么鬼?怎么转换,然后写代码,通过文件流来进行转换,发现md不行,代码如下:

package files;

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.nio.charset.Charset;

public class FileRW {

	public static void main(String[] args) throws Exception {
		BufferedReader br = new BufferedReader(new InputStreamReader (
				new FileInputStream ("/Users/zhangchenguang/Desktop/china_cities_20160101(1).csv"),
				"ISO-8859"
			)
		);
        BufferedWriter bw = new BufferedWriter (new OutputStreamWriter (
        		new FileOutputStream ("/Users/zhangchenguang/Desktop/1.csv"),
        		"UTF-8"
        	)
        );
		int chs = 0 ;
		while((chs=br.read()) != -1){
			bw.write(chs);
		}
		
		br.close();
		bw.close();
	}
}

执行完发现,没这个编码,我TM要哭了~

执行结果如下:

然后开始寻找编码转换的答案:查看目前是否支持这个编码,答案是肯定的,有的... md 好烦~好慌~

然后百度了一下,找了几篇博客发现,有人说gbk,get到这个点以后,抱着试试看的态度试了一把~~~

iconv -f 'gbk' -t 'utf-8' china_cities_20160101\(1\).csv > utf8.txt

file utf8.txt

more utf8.txt

发现,我TM可以了???

难道ISO-8859 编码可以当做 gbk来处理?

在程序中试一把,结果如下:

咦,好了,,,哈哈哈.......

难道 ISO-8859 和 gbk编码是一样的???

咱也不敢说,咱也不敢问~   

哈哈....问题搞定就好了~~~

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
### 回答1: Java和Git在处理换行格式时使用的是不同的标准,Java使用的是LF(Line Feed)换行符,而Git默认使用的是CRLF(Carriage Return + Line Feed)换行符。因此,在使用Git进行版本控制时,如果文件中存在CRLF格式的换行符,会导致该文件的整个内容被认为发生了改变,即使只是修改了一行代码的内容,也会被视为整个文件发生了修改。 这种问题的解决方法有两种,一种是让Git忽略CRLF格式的换行符,可以通过在.gitattributes文件中添加如下代码实现: * text=auto eol=lf 这样Git就会把CRLF转换成LF,并且忽略CRLF的差异,只关注代码的内容是否发生了改变。 另一种方法是让Java使用CRLF格式的换行符,可以在Eclipse中进行设置,在Window -> Preferences -> General -> Workspace -> New text file line delimiter中选择“Other”并选择“Windows”即可。 总之,要避免这种问题的发生,建议在使用Git进行版本控制时,尽量使用LF格式的换行符,并设置好相关的控制参数。同时,在编写Java代码时,也要注意使用LF格式的换行符,以避免以上问题的发生。 ### 回答2: Java是一种广泛使用的编程语言,而Git是一种流行的版本控制系统。我们可以使用Git在不同的计算机上管理Java代码,并在不同的时间点恢复或访问历史版本。 在使用Git管理Java文件时,我们需要注意换行符的格式问题。 Java在Windows操作系统上使用的换行符是CRLF(回车+换行),而在Linux和Mac操作系统上使用的是LF(仅换行)。 如果我们在Windows操作系统上生成Java代码并将其提交到Git仓库中,Git会默认使用CRLF作为换行符格式。然而,如果我们在Linux或Mac上的计算机上从Git仓库中检出该代码,则会将CRLF转换为LF。这样会导致文件内容的改变,虽然我们实际上没有更改代码。这可能导致编译错误或导致代码无法正常运行。 为了解决这个问题,我们可以在 Git 中设置 core.autocrlf 的参数。如果设置为 true,则 Git 会在检出代码时自动转换 CRLF 格式为 LF 格式,并在提交代码时将 LF 转换CRLF。如果设置为'input',则 Git 仅会在检出代码时将 CRLF 转换为 LF。 另外,我们还可以使用.gitattributes文件指定Java文件应使用的换行符格式。通过在根目录下的.gitattributes文件中添加以下行:*.java text eol=lf,我们可以告诉Git仓库Java文件应使用 LF 格式作为换行符。这样就可以避免由于Git自动转换换行符格式而导致Java文件内容变化的问题。 总之,确保在跨不同操作系统使用Git时,要注意并正确处理文件的换行符格式,避免不必要的问题。 ### 回答3: 在使用Git进行代码版本控制或者进行代码合并的过程中,常常会出现整个文件被修改的情况,而造成此问题的原因很多,其中一个就是换行格式的问题。 在程序中,每行的结尾都有一个不可见的换行符,而不同的操作系统对于换行的处理方式是不同的:Windows中的换行标识为CRLF(回车+换行),而Unix/Linux中的换行标识为LF(换行)。而在Java中,使用不同的换行格式是没有问题的,因为Java自动处理了换行符的问题。 然而,在使用Git时,如果Java中的换行格式是CRLF,而Git中的换行格式是LF,那么就会出现整个文件被修改的情况。具体来说,Git在进行代码合并时会自动检测换行符格式,并将所有的换行符替换为LF,而这个过程会被Java误认为是文件全部被修改了,导致所有的行末的CRLF被替换成了LF,从而导致了整个文件被修改的情况。 为了避免这种情况的出现,开发者可以通过配置Git,让Git使用与Java相同的CRLF格式,这样就能避免因换行格式不同而导致的文件被修改问题。 总之,换行符格式问题虽然看似微小,但在代码版本控制和合并中却经常会引起问题,因此在开发过程中需要格外注意。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MrZhangBaby

请博主喝杯奶茶

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值