![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
liu_zhlai
这个作者很懒,什么都没留下…
展开
-
自然语言处理人名识别常用词典
1.中文常见姓氏词典该词典来源于盘古分词中文分词开源软件,盘古分词用该词典识别人名//有明显歧异的姓氏"王","张","黄","周","徐","胡","高","林","马","于","程","傅","曾","叶","余","夏","钟","田","任","方","石","熊","白","毛","江","史","候","龙","万","段", "雷","钱","汤转载 2016-07-26 21:45:05 · 7585 阅读 · 0 评论 -
中文同义词词典
// 该词典来源于开源中文分词软件盘古分词揭穿,戳穿 聪慧,聪明 葱郁,葱茏 粗暴,粗鲁 粗俗,粗鄙 粗鄙,粗俗 篡夺,夺取 懦弱,脆弱 村庄,村落 村子,村庄 存放,寄存 寄放,存放 过错,错误 达到,到达 回覆,答复 端详,打量 古板,呆板 拘捕,逮捕 率领,带领 懒惰,怠惰 担负,担当 担任,担负 畏原创 2016-07-26 22:28:37 · 13163 阅读 · 0 评论 -
条件随机场(CRF)— 绪论
条件随机场是一个非常重要的序列标注模型,在中文切词,词性标注,命名实体识别等自然语言处理场景下得到广泛应用,并且取得了相当不错的效果,目前比较流行的开源中文自然语言处理工具FuDanNLP就通过crf实现分词,实体识别等功能(C++实现的中科院分词工具ICTCLAS,python实现的结巴分词都使用的隐马模型,可见序列标注模型在分词领域有明显优势,至于这两个为什么没使用crf,我觉得可能是HMM更原创 2016-07-29 04:15:12 · 535 阅读 · 0 评论 -
CRF++中文分词
前面讲了对于CRF用于序列标注的基本问题的理解,本文记录下CRF用于中文分词的基本步骤。本文中选用的CRF是目前应用比较广的CRF++,分词语料用的是北京大学自然语言处理实验室标注好的人民日报98年1月的新闻语料。下面是具体的步骤: 1.CRF++安装 CRF++的官网:http://crfpp.sourceforge.net/ 我用的是Ubutnu,所以,下载的是源原创 2016-08-27 15:52:26 · 1194 阅读 · 0 评论 -
CRF序列标注模型几个问题的理解
1,CRF原创 2016-08-17 22:06:31 · 13287 阅读 · 0 评论 -
中文分词-机械分词法
中文分词是中文自然语言处理的基础,中文分词的正确率如何直接影响后续的词性标注(也有些词性标注算法不需要事先分词,但标注效果往往比先分词后标注差),实体识别、句法分析、语义分析。常用的分词方法主要有依赖词典的机械分词和序列标注方法。 1.常用的机械分词方法 在自然语言处理相关的书籍资料中常提到的机械分词方法主要有正向最大匹配、正向最小匹配、逆向最大匹配、逆向最小匹配四种原创 2016-08-05 05:13:00 · 2988 阅读 · 0 评论 -
中文依存句法分析概述及应用
本文转自http://blog.csdn.net/abc006250/article/details/7689872 句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务转载 2016-09-05 22:32:00 · 6732 阅读 · 0 评论