一个字符编码引发的血案

最新推荐文章于 2024-09-19 15:53:35 发布

weixin_30587927

最新推荐文章于 2024-09-19 15:53:35 发布

阅读量58

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/aprilrain/archive/2013/05/03/3057232.html

版权

有个工具类逐行读文本文件，读取数据然后放入内存中。代码如下：

FSDataInputStream in = null;
BufferedReader br = null;

	FileSystem fs = FileSystem.get(new URI(somePath), new Configuration());
	in = fs.open(new Path(somePath));
	br = new BufferedReader(new InputStreamReader(in));
	
	while ((line = br.readLine()) != null) {
		counter++;
		dosomeoperation();
	}

代码设计是既可单机执行，又可在hadoop集群中运行，可是天不遂人愿。。。

在linux单机运行时一切正常，当用于mapreduce中时总是缺少一些数据，具体查看时发现总行数比单机版的少。再测试发现在集群中时有的两行被认为是一行，这种情况全出现在前一行行尾有中文字符时，于是怀疑是编码问题。改一行代码之后断行正常并且运行正确：

br = new BufferedReader(new InputStreamReader(in, Charset.forName("utf8")));

即：显示设置reader的编码。

虽然问题解决了，但还是很困惑。此文件在linux本地文件系统中是utf8的编码，用hadoop fs -put到集群中。put过程中会改变文件的编码还是集群的默认编码不是utf8？如何查看集群的当前默认编码呢？

转载于:https://www.cnblogs.com/aprilrain/archive/2013/05/03/3057232.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30587927

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

UT8 编码引发的血案

xiunai78的专栏

06-20

1849

背景最近研究Nifi ，使用nifi 的证书生成工具。发现以前一样的命令确无法生成证书。命令大概如下： bin/tls-toolkit.sh standalone -n 'xiaa52' -C 'CN=admin2,OU=GZZN2' -O -T jks 折腾过程：对该命令各种修改在linux 下无果，其中不报错但就是不见对应的文件夹（装有keystore和trustore的）。 ...

一个base64引发的血案

sinat_22949049的博客

08-31

634

结果发现header跟body之间多了一个换行符('\r\n')，http协议默认header和body之间有一个空行隔开，也就是一个只含有\r\n的行，但是多了一个\r\n，就会导致服务器取body的时候从这个多出来的\r\n开始取content-length个字符，这样body里最后的两个字符就被这个多出来的\r\n挤掉了而通过观察，这个原因是由于header的最后一个字段Author

参与评论您还未登录，请先登录后发表或查看评论

一个由字符集引发的血案

fanwenjieok的专栏

08-26

485

凡使用过VC编程的都知道，VC支持两种格式的编码，ASCII和Unicode，在字符串前面加L表示一个Unicode字符串，不加前缀则表示ASCII字符串，那么用_T()包含的字符串是什么编码呢，我想这里不用再解释了，用过VC的都知道。在VC编程里，如果要使用C函数输出一个字符串，该使用哪个函数呢？毫无疑问，要输出ASCII字符串使用printf，输出Unicode字符串

由＜meta charset=“UTF-8“＞引发的血案--常见字符编码解析

ANNaScripter的博客

07-22

6403

我作为一名热爱前端的程序猿居然！！在之前没有仔细深究过<meta charset="UTF-8">，今晨痛定思痛，赶紧看了好几个博客，字符编码是真的博大精深啊~~ 最近要找实习，时间有限，以后一定把底层原理写个明白编码名解释备注 ASCII 1、ASCII编码每个字母或符号占1byte（8bits），并且8bits的最高位是0，因此ASCII能编码的字母和符号只有128个。有一些编

一个论坛引发的血案

weixin_30569153的博客

08-11

194

去病率兵十万深入敌后痛击匈奴，经此一役，胡虏元气甚伤，单于伊治斜弃河西平原而迁王庭至漠北。汉乃设酒泉、张掖、敦煌、武威河西四郡。众将凯旋回师，帝召大将军卫青、骠骑将军霍去病、飞将军李广、苏建、公孙敖、公孙贺等将议于宣室殿。众将皆以需涉荒漠为困而欲弃之。然武帝废胡之心愈坚，怒曰:汝皆以为不可，而胡虏亦曰寡人不可为之，然朕必举全国之力誓击之，永绝胡虏之患! 遂点精骑十万，以大...

一个bom头引发的血案

weixin_34198881的博客

11-17

2019独角兽企业重金招聘Python工程师标准>>> ...

编码格式引发的血案

weixin_34209406的博客

06-06

　　问题背景：　　　　使用GalaSoft.MvvmLight写个WPF小应用。通过VS的Nuget管理器安装GalaSoft.MvvmLight。然后在安装MvvmLight时自动生成的MainViewModel.cs源文件中写入了中文的代码逻辑。　　问题现象：　　　　源代码中有中文字符串的比较逻辑（类似：str=="中文"），比较结果永远是false。通过调试查看str值以及...

数据库字符集引发的血案

ermuv5

07-20

946

两个数据库，SQL语句中有汉字就查询不到结果，如果有类似问题的亲们，可以看一下。

charAt引发的血案

猫玛尼的技术之路

03-26

572

charAt() 方法用于返回指定索引处的字符。索引范围为从 0 到 length() - 1。 public char charAt(int index) index – 字符的索引。事情发生在昨天，今天整理出来。线上客服爆出“C端APP上的某个促销活动的活动详情无法打开”，通过客户端同学小T查看，该BUG的现象是：同一个活动详情，Android没有报错能展示活动详情（后来发现有一个乱码...

第002章一个输入框引发的血案.rarpython面试

08-13

而"一个输入框引发的血案"这个标题似乎暗示了一个关于用户输入的安全性问题，这在Web开发中是一个极其重要的主题。在Python中，对用户输入的不当处理可能导致各种安全风险，如SQL注入、跨站脚本（XSS）攻击等。 ...

一次因修改Python编码规范而引起的“血案“

you are sherlocked by me!

11-23

1268

简单来说就是因为如下代码, 导致了ZipOutputPath的一个函数异常, 导致zip包不能正确下载有如下报错: UnboundLocalError: local variable 'val' referenced before assignment 排查发现，错误发生点代码简化如下 #!usr/bin/python # -*- coding:utf8 -*- import time def print_time(): # import time time = time.ti.

【Elasticsearch系列六】系统命令API

檀越的博客

09-16

1488

💝💝💝欢迎来到我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。💝💝💝 ✨✨ 欢迎订阅本专栏 ✨✨。

消息中间件有哪些常见类型

weixin_57763462的博客

09-15

758

需要注意的是，这些类型并不是严格互斥的，有些消息中间件可能支持多种消息传递模式或结合了多种类型的特点。在这种模型中，消息被发送到特定的队列中，消费者从队列中取出并处理消息。在发布/订阅模型中，消息被发布到特定的主题（Topic）上，所有订阅了该主题的消费者都可以接收到这个消息。消息代理是一种更通用的概念，它涵盖了上述的点对点和发布/订阅模型，以及可能的其他消息传递模式。消息代理作为消息的存储和转发中心，负责消息的路由、过滤、持久化等功能。这类消息系统使用日志结构来存储消息，提供了极高的吞吐量和可扩展性。

MySQL索引知识个人笔记总结（持续整理）

易琳的博客

09-18

921

在之前a>1 的时候，b=2是无序的，但是现在a>=1,这里面包含了a=1，对于符合a=1 夜间的二级索引记录的范国里，b字段的值是「有序」的(因为对于联合索引，是先按照 a字段的值排序，然后在a字段的值相同的情况下，再按照b字段的值进行排序）（联想到这个最左匹配原则去思考问题）由于树是存储在磁盘中的，访问每个节点，都对应一次磁盘 I/O 操作（假设一个节点的大小「小于」操作系统的最小读写单位块的大小），也就是说树的高度就等于每次查询数据时磁盘 IO 操作的次数，所以树的高度越高，就会影响查询性能。

阿里1688一面总结