- 博客(4)
- 资源 (28)
- 收藏
- 关注
转载 【中文分词系列】 5. 基于语言模型的无监督分词
迄今为止,前四篇文章已经介绍了分词的若干思路,其中有基于最大概率的查词典方法、基于HMM或LSTM的字标注方法等。这些都是已有的研究方法了,笔者所做的就只是总结工作而已。查词典方法和字标注各有各的好处,我一直在想,能不能给出一种只需要大规模语料来训练的无监督分词模型呢?也就是说,怎么切分,应该是由语料来决定的,跟语言本身没关系。说白了,只要足够多语料,就可以告诉我们怎么分词。看上去很完美,
2016-12-27 10:56:23 8252 1
转载 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注
转载:https://spaces.ac.cn/archives/3924/关于字标注法上一篇文章谈到了分词的字标注法。要注意字标注法是很有潜力的,要不然它也不会在公开测试中取得最优的成绩了。在我看来,字标注法有效有两个主要的原因,第一个原因是它将分词问题变成了一个序列标注问题,而且这个标注是对齐的,也就是输入的字跟输出的标签是一一对应的,这在序列标注中是一个比较成熟的问题;第二个
2016-12-27 10:28:21 2615
转载 Dialog System 总结
转自:http://blog.csdn.net/abcjennifer/article/details/53428053本文包括对话系统分类、数据汇总、和一些目前对话系统paper的总结、评价。 以下paper的“一句话评论”均为个人观念,评价标准苛刻,也有可能夸大了论文的缺点,希望与持不同意见的各位有识之士共同讨论。对话系统分类DataPapersNeur
2016-12-14 14:16:06 2067
原创 linux环境安装CRF++及python接口
记录一下步骤:切换root权限./configuremakemake installcd pythonpython setup.py buildpython setup.py installln -s /usr/local/lib/libcrfpp.so* /usr/lib64/
2016-12-01 18:08:23 2409
HTK孤立词语音识别系统所有文件
2013-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人