Python读取scel文件

背景介绍:将搜狗词库中 .scel 文件转化为 .txt 文件

  1. 搜狗词库链接:https://pinyin.sogou.com/dict/
  2. 搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母)找出其每部分的偏移位置即可,主要两部分:

    2.1 全局拼音表,貌似是所有的拼音组合,字典序 格式为(index,len,pinyin)的列表 index: 两个字节的整数 代表这个拼音的索引 len: 两个字节的整数 拼音的字节长度 pinyin: 当前的拼音,每个字符两个字节,总长len

    2.2 汉语词组表 格式为(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一个列表 same: 两个字节 整数 同音词数量 py_table_len: 两个字节 整数 py_table: 整数列表,每个整数两个字节,每个整数代表一个拼音的索引

      word_len:两个字节 整数 代表中文词组字节数长度
      word: 中文词组,每个中文汉字两个字节,总长度word_len
      ext_len: 两个字节 整数 代表扩展信息的长度,好像都是10
      ext: 扩展信息 前两个字节是一个整数(不知道是不是词频) 后八个字节全是0
    
     {word_len,word,ext_len,ext} 一共重复same次 同音词 相同拼音表
  3. struct函数 -- struct.pack()和struct.unpack()

    在转化过程中,主要用到了一个格式化字符串(format strings),用来规定转化的方法和格式。

    3.1 struct.pack(fmt,v1,v2,.....)

      将v1,v2等参数的值进行一层包装,包装的方法由fmt指定。被包装的参数必须严格符合fmt。最后返回一个包装后的字符串。

    3.2 struct.unpack(fmt,string)

      顾名思义,解包。比如pack打包,然后就可以用unpack解包了。返回一个由解包数据(string)得到的一个元组(tuple), 即使仅有一个数据也会被解包成元组。其中len(string) 必须等于 calcsize(fmt),这里面涉及到了一个calcsize函数。struct.calcsize(fmt):这个就是用来计算fmt格式所描述的结构的大小。 格式字符串(format string)由一个或多个格式字符(format characters)组成,对于这些格式字符的描述参照Python manual如下:

Format C Type Python
x pad byte no value
c char string of length
  • 16
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值