- 博客(3)
- 收藏
- 关注
原创 mmseg中文分词算法的python实现及其优化
mmseg中文分词算法的python实现及其优化任务定义实现一个中文分词系统并对其性能做测试。输入输出该分词的训练语料取自人民日报1998年公开的语料库。为了保证测试的严谨性,选择另一份语料库做测试文档。该文档为SIGHAN(国际计算语言学会(ACL)中文语言处理小组)举办的国际中文语言处理竞赛中提供的pku_test_gold语料。方法描述mmseg算法理解mmseg本质上就是前向最大匹配+消除歧
2017-11-16 14:23:31 2644 1
原创 python实现的基于hmm模型的词性标注系统
python实现的基于hmm模型的词性标注系统任务定义实现一个词性标注系统,输入分好词的单词序列,输出一个词性标注后的结果序使用的语料库为人民日报98年公开语料库,一共约18000行语料。在用户交互模式下,所有语料库均用作训练。在文件读写模式下,前3000行语句用来做测试,后面的语句用来做训练。方法描述隐马尔科夫模型理解隐马尔科夫模型是结构最简单的动态贝叶斯网络。描述由一个隐藏的马尔科夫链随机生成
2017-11-16 14:16:58 10641 6
原创 基于python实现的mmseg中文分词算法实现及其优化
mmseg中文分词算法的python实现及其优化mmseg算法理解mmseg本质上个人理解就是前向最大匹配+消除歧义规则+贪心,最简单的前向最大匹配就是,将每次从起点位置能匹配到的最长词语作为分词结果,连续进行下去。前向最大匹配符合人们的习惯,但是在某些语句中会产生歧义。例如北京大学生前来应聘,由于北京大学在词库中出现,所以前向最大匹配会分成北京大学/生/前来/应聘,显然这不是正确的分词结果。那么m
2017-11-07 00:08:17 1135
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人