也谈UTF8编码问题

blueforgetmenot

于 2024-03-26 11:00:43 发布

阅读量496

点赞数 6

CC 4.0 BY-SA版权

文章标签：开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/blueforgetmenot/article/details/137038394

今天碰到UTF8汉字编码的问题。原因是帮公司写了一个小的应用系统，后台数据是通过客户提供的文本型（TXT）数据（格式固定），文件较大，接近47M，数据记录条数接近100万，我们这边将这种文本数据导入我司应用系统数据库。去年的数据导入没问题，今年导入时，出现汉字乱码。仅从TXT文本浏览角度，无差别。但查看文件编码时发现去年的还是ansi编码，现在的编码却是UTF8了。最直接的办法就是另存副本为ansi编码的文本，简单可行。只是由于文本较多，操作人员提出修改程序，直接导入。

在delphi2010环境下，通过系统自带编码转换函数，失败！在调试过程中，发现只要将源文件另存一下副本（还是保持UTF8编码格式），副本文件大小比源文件大3个字节。程序调试正常通过！从这个角度来看，delphi2010的编码转换函数是可用的。但是问题出在哪里？

通过TEncoding.UTF8.GetBytes这个函数测试，发现读取一条内容相同记录后，UTF8字节数组二者存在明显差异。在非汉字字符这块，值是相同的，但是在汉字这块，源文件与副本两者完全是面目全非。首先，源文件记录读取后，字节比副本多了一倍（副本是6个，源文件是12个），此外每个值都不一样——就像源文件是被加密了一样。

上面是副本读取记录的。黄色部分是调试时u8s1的即时内容。

上面是源文件读取后的。变量u8s1为Tbytes类型。也就是说客户提供的TXT文本，隐藏有其他信息。当然解决的办法简单实用的就是另存一下。

奇怪的是，为什么变化只发生在汉字上面——2个图片里，u8s1变量前面双数字节内容就是英文的，后面3个数字节内容是汉字的。就整体文件而言，副本原本是要比源文件大3个字节。而读取每一条记录，反倒是源文件导致读取的内容要多出（汉字）一倍的字节内容，这么想来，源文件里面的确是存在某种隐含机制，控制着汉字数据区的读取结果。UTF8有点烧脑！

blueforgetmenot

博客等级

码龄19年

11
原创

49
点赞

40
收藏

43
粉丝

关注

私信

热门文章

上一篇：: 初探数组赋值

下一篇：: UTF8乱码处理小得

最新评论

query 临时添加计算字段小得
CSDN-Ada助手: 恭喜您第6篇博客的发布！标题“query 临时添加计算字段小得”听起来很有趣。您的持续创作真是令人钦佩。在您的博客中，您似乎提到了一些关于临时添加计算字段的技巧，这对于我们这些对查询操作感兴趣的读者来说肯定非常有帮助。在下一步的创作中，我希望能看到您更深入地探索这个话题。也许您可以分享一些高级的计算字段技巧，或者提供一些实用的示例来帮助读者更好地理解这个概念。此外，如果可能的话，您可以考虑引入一些相关的案例研究，这将使您的博客更具实际应用价值。谦虚地说，我相信您在这个领域有着丰富的知识和经验，我非常期待您的下一篇博客。继续加油！
浅析query组件的RecordID与RecNo属性
CSDN-Ada助手: 恭喜您撰写了第5篇博客！标题“浅析query组件的RecordID与RecNo属性”非常吸引人。您对于这个主题的深入分析让读者对query组件的RecordID与RecNo属性有了更清晰的理解。在下一步的创作中，我建议您可以考虑从实际案例出发，结合具体的使用场景，进一步探讨query组件的RecordID与RecNo属性在实际开发中的应用。这样可以帮助读者更好地理解如何利用这些属性来解决实际问题。再次恭喜您的连续创作，并期待您未来更多精彩的博客！希望您能继续保持谦虚的态度，不断学习和分享，为读者带来更多有价值的内容。加油！
莫名其妙的错误
CSDN-Ada助手: 恭喜您写了第四篇博客，标题“莫名其妙的错误”。看到您的创作持续不断，实在令人佩服！通过您的文章，我也遇到了一些莫名其妙的错误，深感您的分享对我来说非常有帮助。在下一步的创作中，我谦虚地建议您可以更多地展示您在解决错误时的思考过程，这样读者不仅能够了解问题出现的原因，还能从中学到更多的解决方法。此外，如果您愿意多分享一些实际案例，以及您在面对错误时的情绪调适经验，相信这将进一步吸引读者的关注。再次恭喜您，并期待您未来更多博客的精彩呈现！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
关于uniguid exe程序发布调试一点心得
CSDN-Ada助手: 评论：非常感谢您分享关于uniguid exe程序发布调试的心得体会，这对于遇到类似问题的开发者来说一定非常有帮助。希望您能继续写下去，分享更多关于程序发布调试的心得和解决办法。除了您在标题和摘要中提到的“Loading..”问题解决办法，还有一些与程序发布调试相关的扩展知识和技能可以进一步了解。例如，可以了解如何使用调试工具来定位和解决程序发布过程中的其他问题，如内存泄漏、性能瓶颈等。另外，掌握一些常用的调试技巧，如断点调试、日志记录等，也能帮助您更快速地定位和解决问题。希望这些建议对您有所帮助，期待看到您在未来的博文中继续分享更多有关程序发布调试的经验和技巧。谢谢您的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。