Go语言检测文件编码的方法

Go语言检测文件编码的方法

开源软件github.com/saintfish/chardet提供了检测文件编码的功能。

安装

go get github.com/saintfish/chardet

检测编码

rawBytes := []byte("some text")
detector := chardet.NewTextDetector()
charset, err := detector.DetectBest(rawBytes)
if err != nil {
    panic(err)
}

println(charset.Charset)
println(charset.Language)

支持的编码

UTF-8 GB-18030 ISO-8859-1 UTF-16BE UTF-16LE UTF-32BE UTF-32LE Big5

编码检测方法

检测输入的字节流中是否出现了某个特定编码才有的字符。

修改记录

  1. 2018年11月16日 建立文档。

转载于:https://my.oschina.net/u/131191/blog/2877477

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
整理大牛分享文档如下,一线开发架构,技术文档 网易蜂巢公有容器云架构之路 新浪微博redis优化历程 微博Cache架构设计实践 Go在大数据开发中的经验总结 基于Go构建滴滴核心业务平台的实践 京东分布式K-V存储设计与挑战 去哪网数据库架构发展历程 58速运数据库降压优化实践 云时代的数据库演变之路 阿里万亿级数据洪峰下的消息引擎 小米生态云应用引擎实践 去哪儿网基于Mesos Docker的Elasticsearch容器化私有云 滴滴统一资源调度平台建设实践 亚马逊云平台计算服务进化之路 京东云为企业提供智能化之路 中移苏研存储产品化之路 百度基于Druid的大数据采集即计算实践 蘑菇街大数据平台工作流调度系统 饿了么离线大数据平台实践 爱奇艺广告大数据实践 魅族Android多分支代码自动同步 闲鱼2亿用户架构实践 美团配送移动网关建设实战 京东图片系统演进 360云端图像技术的深度学习模型与应用 腾讯优图深度学习在图像审核的应用 上汽时代站在云时代的路口 大型企业云平台架构演进的实践之路 机器学习和未知样本检测 瓜子云的技术架构落地方案 分布式存储优化与离线混布弹性计算平台 360基础架构大容量redis存储方案--Pika 财付通交易核心演进之路 京东金融数据库多场景架构实践 摩拜开源技术的线上应用之路 AI领域的人机识别对抗 千亿美金的验证码攻防 苏宁潜行狙击--业务安全大数据融合 腾讯全民K歌黑产对抗之路 阿里面向未来的泛内容AI平台建设实践 vivo大规模机器学习实践 INTchain在大宗商品物流应用的架构探讨 微软亚洲研究院构建企业级区块链生态 VMWare使用Kubernetes部署超级账本Fabric 机器学习在推荐系统中的应用 阿里云开放搜索多租户实时计算架构的演进之路 QQ音乐的个性化探索 京东亿级流量海量数据搜索架构 C2C市场中推荐系统的挑战与机遇 阿里网络故障智能化治理 腾讯全用户态服务开发套件F-Stack 苏宁易购全站HTTPS实践之路 金山云H.265在视频直播场景下的应用演进 阿里窄带高清,打造新优酷极致体验 腾讯IEGVR视频直播探索与创新 Go in TiDB 搜狗智能语音之路 滴滴智能交互 美好出行 人工智能助力新时代K12教育 阿里智能实验室语音识别技术回顾及应用 可定制开发的语音交互技术 基于容器的持续集成平台建设 阿⾥巴巴全球化技术架构 美团外卖自动化业务运维系统建设 技术前沿进展:系统自动化调优 基于Hybrid的移动应用混合开发模式架构演变 阿里移动端图像加载优化与增强 滴滴移动端基础架构的演进与探索 搜狗前端测试质量的度量 负载均衡利器 HAProxy功能剖析及部署案例 高可用技术的实践分享 高性能存储及文件系统 个性化推荐架构设计和实践搜狐视频 银行数据中心架构创新之路 互联网对传统企业应用架构 基于Kafka-Spark Streaming的数据处理系统及测试 交互式直播推流编码器的设计 Elasticsearch实时高效聚合计算应用实践 腾讯Elasticsearch大规模实践 阿里云Elasticsearch架构解析与性能优化实践 Go在区块链的发展和演进 Aliyun ApasaDB Go 微服务架构 罗辑思维Go语言微服务改造实践 Golang打造下一代互联网-IPFS全解析等
网管教程 从入门到精通软件篇 ★一。★详细的xp修复控制台命令和用法!!! 放入xp(2000)的光盘,安装时候选R,修复! Windows XP(包括 Windows 2000)的控制台命令是在系统出现一些意外情况下的一种非常有效的诊断和测试以及恢复系统功能的工具。小编的确一直都想把这方面的命令做个总结,这次辛苦老范给我们整理了这份实用的秘笈。   Bootcfg   bootcfg 命令启动配置和故障恢复(对于大多数计算机,即 boot.ini 文件)。   含有下列参数的 bootcfg 命令仅在使用故障恢复控制台时才可用。可在命令提示符下使用带有不同参数的 bootcfg 命令。   用法:   bootcfg /default  设置默认引导项。   bootcfg /add    向引导列表中添加 Windows 安装。   bootcfg /rebuild  重复全部 Windows 安装过程并允许用户选择要添加的内容。   注意:使用 bootcfg /rebuild 之前,应先通过 bootcfg /copy 命令备份 boot.ini 文件。   bootcfg /scan    扫描用于 Windows 安装的所有磁盘并显示结果。   注意:这些结果被静态存储,并用于本次会话。如果在本次会话期间磁盘配置发生变化,为获得更新的扫描,必须先重新启动计算机,然后再次扫描磁盘。   bootcfg /list   列出引导列表中已有的条目。   bootcfg /disableredirect 在启动引导程序中禁用重定向。   bootcfg /redirect [ PortBaudRrate] |[ useBiosSettings]   在启动引导程序中通过指定配置启用重定向。   范例: bootcfg /redirect com1 115200 bootcfg /redirect useBiosSettings   hkdsk   创建并显示磁盘的状态报告。Chkdsk 命令还可列出并纠正磁盘上的错误。   含有下列参数的 chkdsk 命令仅在使用故障恢复控制台时才可用。可在命令提示符下使用带有不同参数的 chkdsk 命令。   vol [drive:] [ chkdsk [drive:] [/p] [/r]   参数  无   如果不带任何参数,chkdsk 将显示当前驱动器中的磁盘状态。 drive: 指定要 chkdsk 检查的驱动器。 /p   即使驱动器不在 chkdsk 的检查范围内,也执行彻底检查。该参数不对驱动器做任何更改。 /r   找到坏扇区并恢复可读取的信息。隐含着 /p 参数。   注意 Chkdsk 命令需要 Autochk.exe 文件。如果不能在启动目录(默认为 %systemroot%System32)中找到该文件,将试着在 Windows 安装 CD 中找到它。如果有多引导系统的计算机,必须保证是在包含 Windows 的驱动器上使用该命令。 Diskpart   创建和删除硬盘驱动器上的分区。diskpart 命令仅在使用故障恢复控制台时才可用。   diskpart [ /add |/delete] [device_name |drive_name |partition_name] [size]   参数 无   如果不带任何参数,diskpart 命令将启动 diskpart 的 Windows 字符模式版本。   /add   创建新的分区。   /delete   删除现有分区。   device_name   要创建或删除分区的设备。设备名称可从 map 命令的输出获得。例如,设备名称:   DeviceHardDisk0   drive_name   以驱动器号表示的待删除分区。仅与 /delete 同时使用。以下是驱动器名称的范例:   D:   partition_name   以分区名称表示的待删除分区。可代替 drive_name 使用。仅与 /delete 同时使用。以下是分区名称的范例:   DeviceHardDisk0Partition1    大小   要创建的分区大小,以兆字节 (MB)表示。仅与 /add 同时使用。   范例   下例将删除分区: diskpart /delete Device HardDisk0 Partition3 diskpart /delete F:   下例将在硬盘上添加一个 20 MB 的分区:   diskpart /add Device HardDisk0 20   Fixboot
在 Go 语言中,可以使用 `encoding/csv` 包来读取和写入 CSV 文件。当然,CSV 文件有时可能会使用不同的编码格式,例如 UTF-8、GB2312 等等。为了将 CSV 文件转换为指定的编码格式,可以使用 `encoding/csv` 包中的 `NewWriter` 函数创建一个 CSV 编写器,然后使用 `io.Writer` 接口中的 `WriteString` 方法将 CSV 数据写入到一个字节数组中。接下来,可以使用 `bytes.NewReader` 函数将字节数组转换为 `io.Reader` 接口类型,最后使用 `golang.org/x/text/encoding` 包中的 `Encoding` 接口来进行编码转换。 以下是一个示例代码,演示如何将一个 UTF-8 编码的 CSV 文件转换为 GB2312 编码: ```go package main import ( "bytes" "encoding/csv" "fmt" "golang.org/x/text/encoding/simplifiedchinese" "io/ioutil" "os" ) func main() { // 打开 UTF-8 编码的 CSV 文件 file, err := os.Open("data.csv") if err != nil { panic(err) } defer file.Close() // 读取 CSV 数据并转换为字节数组 reader := csv.NewReader(file) data, err := reader.ReadAll() if err != nil { panic(err) } var buf bytes.Buffer writer := csv.NewWriter(&buf) // 写入 CSV 数据到缓冲区 err = writer.WriteAll(data) if err != nil { panic(err) } // 将 CSV 数据的编码格式转换为 GB2312 enc := simplifiedchinese.GB2312.NewEncoder() encoded, err := ioutil.ReadAll(enc.Writer(&buf)) if err != nil { panic(err) } // 将编码后的 CSV 数据写入到文件 err = ioutil.WriteFile("data_gb2312.csv", encoded, os.ModePerm) if err != nil { panic(err) } fmt.Println("CSV 文件转换完成!") } ``` 在上面的示例代码中,我们首先使用 `csv.NewReader` 函数读取 CSV 文件,并使用 `ReadAll` 方法将数据读取到一个二维数组中。接下来,我们创建了一个缓冲区,并使用 `csv.NewWriter` 函数创建了一个 CSV 编写器,将读取到的 CSV 数据写入到缓冲区中。然后,我们使用 `simplifiedchinese.GB2312.NewEncoder()` 函数创建了一个 GB2312 编码编码器,并使用 `enc.Writer(&buf)` 方法将缓冲区作为输出写入到编码器中,进行编码转换。最后,我们使用 `ioutil.WriteFile` 函数将编码后的 CSV 数据写入到一个新的文件中。 需要注意的是,不同的编码格式可能需要不同的编码器,例如 UTF-8 编码无需进行编码转换。此外,在进行编码转换时,还需要注意可能出现的编码转换错误。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值