Python读取scel文件

最新推荐文章于 2024-04-23 09:34:45 发布

寒江共雪

最新推荐文章于 2024-04-23 09:34:45 发布

阅读量7.8k

点赞数 16

分类专栏： Python 文章标签： Python3 scel

本文链接：https://blog.csdn.net/CQDIY/article/details/82840027

版权

这篇博客介绍了如何使用Python将搜狗词库的.scel文件转换为.txt文件，详细解析了.scel文件的结构，并提供了转换过程中的关键代码和参考资料。

摘要由CSDN通过智能技术生成

背景介绍：将搜狗词库中 .scel 文件转化为 .txt 文件

搜狗词库链接：https://pinyin.sogou.com/dict/
搜狗的scel词库就是保存的文本的unicode编码，每两个字节一个字符（中文汉字或者英文字母）找出其每部分的偏移位置即可，主要两部分：

2.1 全局拼音表，貌似是所有的拼音组合，字典序格式为(index,len,pinyin)的列表 index: 两个字节的整数代表这个拼音的索引 len: 两个字节的整数拼音的字节长度 pinyin: 当前的拼音，每个字符两个字节，总长len

2.2 汉语词组表格式为(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一个列表 same: 两个字节整数同音词数量 py_table_len: 两个字节整数 py_table: 整数列表，每个整数两个字节,每个整数代表一个拼音的索引
```
  word_len:两个字节 整数 代表中文词组字节数长度
  word: 中文词组,每个中文汉字两个字节，总长度word_len
  ext_len: 两个字节 整数 代表扩展信息的长度，好像都是10
  ext: 扩展信息 前两个字节是一个整数(不知道是不是词频) 后八个字节全是0

 {word_len,word,ext_len,ext} 一共重复same次 同音词 相同拼音表
```
struct函数 -- struct.pack()和struct.unpack()

在转化过程中，主要用到了一个格式化字符串(format strings)，用来规定转化的方法和格式。

3.1 struct.pack(fmt,v1,v2,.....)

　　将v1,v2等参数的值进行一层包装，包装的方法由fmt指定。被包装的参数必须严格符合fmt。最后返回一个包装后的字符串。

3.2 struct.unpack(fmt,string)

　　顾名思义，解包。比如pack打包，然后就可以用unpack解包了。返回一个由解包数据(string)得到的一个元组(tuple), 即使仅有一个数据也会被解包成元组。其中len(string) 必须等于 calcsize(fmt)，这里面涉及到了一个calcsize函数。struct.calcsize(fmt)：这个就是用来计算fmt格式所描述的结构的大小。格式字符串(format string)由一个或多个格式字符(format characters)组成，对于这些格式字符的描述参照Python manual如下: