搜狗细胞词库解析(仅提取词和词频)

#pragma once
#include <string>
#include <list>
#include <fstream>

struct Data {
public:
	Data(std::wstring _word, UINT16 count) :word(_word), byRate(count)
	{
		if (byRate > 250)
			byRate = 250;
	}
	std::wstring word;//词
	BYTE byRate;//词频
};
class SougouScelReader
{
	// 主要两部分
	// 1.全局拼音表,貌似是所有的拼音组合,字典序
	// 格式为(index,len,pinyin)的列表
	// index: 两个字节的整数 代表这个拼音的索引
	// len: 两个字节的整数 拼音的字节长度
	// pinyin: 当前的拼音,每个字符两个字节,总长len
	//
	// 2.汉语词组表
	// 格式为(same,py_table_len,py_table,{word_len,word,ext_len,ext})的一个列表
	// same: 两个字节 整数 同音词数量
	// py_table_len:  两个字节 整数
	// py_table: 整数列表,每个整数两个字节,每个整数代表一个拼音的索引
	//
	// word_len:两个字节 整数 代表中文词组字节数长度
	// word: 中文词组,每个中文汉字两个字节,总长度word_len
	// ext_len: 两个字节 整数 代表扩展信息的长度,好像都是10
	// ext: 扩展信息 前两个字节是一个整数(不知道是不是词频) 后八个字节全是0
	//
	//      {word_len,word,ext_len,ext} 一共重复same次 同音词 相同拼音表

public:
	//# 拼音表偏移,
	static const INT32 startPy = 0x1540;

	// 汉语词组表偏移
	static const INT32 startChinese = 0x2628;

	// 全局拼音表          

	// 解析结果
	// 元组(词频,拼音,中文词组)的列表


	// 原始字节码转为字符串
	std::wstring byte2str(byte data[], size_t len)const
	{
		int pos = 0;
		std::wstring str;
		while (pos < len)
		{
			wchar_t c = (wchar_t)(data[pos + 1] << 8 | data[pos]);
			if (c != 0)
			{
				str += c;
			}
			pos += 2;
		}
		return str;
	}

	void getChinese(byte data[], size_t len, std::list<Data> &out)const
	{
		int pos = 0;
		while (pos < len)
		{
			//同音词数量
			UINT16 same = data[pos + 1] << 8 | data[pos];
			// 拼音索引表长度
			pos += 2;
			UINT16 py_table_len = data[pos + 1] << 8 | data[pos];
			// 拼音索引表
			pos += 2;
			// 中文词组
			pos += py_table_len;
			for (int i = 0; i < same; i++)
			{
				// 中文词组长度
				INT16 c_len = data[pos + 1] << 8 | data[pos];
				// 中文词组
				pos += 2;
				std::wstring word = byte2str(data + pos, c_len);
				// 扩展数据长度
				pos += c_len;
				UINT16 ext_len = data[pos + 1] << 8 | data[pos];
				// 词频
				pos += 2;
				UINT16 count = data[pos + 1] << 8 | data[pos];
				out.push_back(Data(word, count));
				pos += ext_len;
			}
		}
	}
};
class CSogoScelParse
{
	std::wstring name;
	std::list<Data> words;
public:
	CSogoScelParse(std::wstring inputPath)
	{
		std::ifstream infile(inputPath.c_str(), std::ios_base::binary| std::ios_base::in);
		if (infile.is_open())
		{
			infile.seekg(0, std::ios_base::end);
			int nFileLen = infile.tellg();
			infile.seekg(0, std::ios_base::beg);
			byte* buffes = new byte[nFileLen];
			if (buffes)
			{
				SougouScelReader scelReader;
				if (nFileLen < scelReader.startChinese)//文件过小,暂没有进行更一步校验。
				{
					delete buffes;
					infile.close();
					return;
				}
				infile.read((char*)buffes, nFileLen);
				infile.close();
				//词库名
				name = scelReader.byte2str(buffes+0x130, 0x338-0x130);
				//解析词列表
				scelReader.getChinese(buffes + scelReader.startChinese, nFileLen - scelReader.startChinese,words);
			}
			delete buffes;			
		}		
	}
	size_t GetWordCount()const
	{
		return words.size();
	}
	const std::list<Data>& GetWordList()const
	{
		return words;
	}
};

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值