【Rosseta中文分词】python下利用HMM思想进行中文分词

刚刚打了半天没保存 突然崩溃 全毁了。!QAQ

心好累,不想多说什么了,说点重要的放几个连接就算了。

github连接:https://github.com/yuchenlin/RossetaSeg/

1.这个项目是大一上计算导论的大作业之一,感觉比较有挑战性就选了,也学到了很多东西,挺开心的。

2.基本没什么心意,跟结巴分词的思路一模一样,但是因为结巴进行了太多工程性优化也没有很多文档,所以我的这个唯一的意义就是看起来比较容易懂。

3.思路主要是两层,一是基于词典和概率的动态规划搜索有向无环图的最大概率路径,二是针对多个连续单字进行HMM的标注构造,实现每个字都有一个状态,且这个状态链对应的概率是最大的。

4.一些连接,给了我很多帮助:

http://blog.csdn.net/likelet/article/details/7056068

http://ddtcms.com/blog/archive/2013/2/4/69/jieba-fenci-suanfa-lijie/

还有wiki的维特比算法词条。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值