解码百度输入法词库

    最近需要解析下载得到的百度输入法词库,本来尝试利用深蓝词库转换解决,无奈深蓝词库不能对各个路径下的词库分别进行处理,只能进行合并操作,这就丧失了原来路径具有的分类信息。看来这个坑还得自己填。

    声明:下述没有处理拼音,只是简单的提取词库中的中文词。
    需要处理词库,前提条件是了解词库文件内部存放方式。根据深蓝词库转换源码,我们可以推出百度词库编码方式如下:
0x350 :词库存放开始位置
    int len 词语的长度,int数 4字节
    长度2*len字节,对应拼音信息
    长度2*len字节,对应unicode编码的中文词
    所以,取出词库中的中文词,只需首先将文件读指针移动到0x350位置,读取词的长度,然后跳过中间的拼音信息,直接取到中文词unicode编码的字符串,然后对其进行解码即可。取出文件中的所有词语,只需要循环这个过程,直至文件读指针到了文件末尾。在我的需求中,需要把转码的中文词写入到文件中。
    思路说完了,下面上代码:
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.IO;
namespace read_file
{
    class Program
    {
        public static int ReadInt32(Stream fs)
        {
            var temp = new byte[4];
            fs.Read(temp, 0, 4);
            int s = BitConverter.ToInt32(temp, 0);
            return s;
        }
        public static List<String> readWord(string path,List<String>list)
        {
            var fs = new FileStream(path, FileMode.Open, FileAccess.Read);
            fs.Seek(0, SeekOrigin.End);
            long endPosition = fs.Position;
            fs.Position = 0x350;
            do
            {
                int len = ReadInt32(fs);
                fs.Position += len * 2;
                var temp = new byte[len * 2];
                fs.Read(temp, 0, len * 2);
                String word = Encoding.Unicode.GetString(temp);
                list.Add(word);
            } while (fs.Position <endPosition-1);
            fs.Close();
            return list;
        }
        static void transform_txt(string path)
        {
            var files = Directory.GetFiles(path, "*.bdict");
            List<String> list = new List<string>();
            foreach (var file in files)
            {
                list = readWord(file, list);
                Console.WriteLine(file + "文件处理完毕!");
            }
            FileStream fs = new FileStream(path + "dict.txt", FileMode.Append);
            StreamWriter writer = new StreamWriter(fs, Encoding.UTF8);
            foreach (String word in list)
            {
                writer.Write(word + "\n");
            }
            writer.Close();
            fs.Close();
        }
        static void Main(string[] args)
        {
            string []paths = { "C:FileRecv\\安徽\\" };
            foreach (string path in paths)
                transform_txt(path);
        }
    }
}

 

转载于:https://www.cnblogs.com/zhoudayang/p/5288165.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
STM32F407输入是一种基于STM32F407单片机的输入方案。STM32F407是意半导体(STMicroelectronics)推出的一款强大的ARM Cortex-M4内核微控制器。 输入是用来在嵌入式系统中实现文字输入的一种软件。由于STM32F407单片机具有较大的Flash和RAM存储空间以及强大的计算能力,因此可以在其上实现输入功能。 STM32F407输入可以通过连接外部键盘或触摸屏实现用户输入文字。通过编程实现键盘扫描和触摸屏点击事件的监听,可以获取用户的输入操作。然后,根据用户的输入,使用特定的算进行字符编码和解码,将用户输入的字符转化为可识别的文字。 输入设计还需要考虑到用户与STM32F407单片机的交互方式。可以通过连接液晶显示屏或LED灯来显示输入结果,提供给用户反馈。另外,还可以通过蜂鸣器或震动马达来提供音频或触觉反馈,增加用户体验。 在实现STM32F407输入时,还需考虑输入效率和准确性。可以采用基于统计或机器学习的预测输入,提升输入速度和准确度。此外,还需要考虑到输入的多语言支持,增加输入的灵活性和可适应性。 总结来说,STM32F407输入是一种基于STM32F407单片机的文字输入解决方案,通过监听外部键盘或触摸屏的输入事件,使用特定算将用户输入转化为文字,并通过显示屏或其他反馈方式实现交互。同时,它还可以采用预测输入和多语言支持,提升输入效率和适应性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值