自然语言处理
文章平均质量分 78
萝卜虫
看他好像一个AI吖··
展开
-
自动和半自动知识提取
知识库的建立,在NLP领域是常见的工作内容。我目前也在做一个HR的系统,需要建立技能的知识库,查了一些资料,做一些总结。 正如动物依靠对环境和食物的认知来维持生存、人类依靠知识和技能来扮演社会角色一样,计算机应用程序和系统也依赖特定的“知识”来完成特定的功能。近些年,包括互联网搜索系统、自动导航系统、自动问答系统、机器翻译系统、语音识别系统等在内的智能系统取得了巨大进展,其背后是更深、更广、更新转载 2017-05-11 21:17:45 · 1895 阅读 · 0 评论 -
一个非知识库的中文分词算法实现
目前,公司正在做一个简历系统,简单的讲,就是方便HR MM们筛选简历。 刚开始听到这个需求的时候,感觉挺简单,没啥东西。但是开会后,发现麻雀虽小,五脏俱全,自然语言处理需要的东西一个都少不了。 其中有一个关键点,涉及到一个信息抽取和命名实体识别的问题。我算是发现了,这个命名实体识别,只要是个NLP项目,差不多就躲不过去了。这个值得花点功夫好好研究下,后面会写一个命名实体识别的算法总结报告,原创 2017-04-23 17:08:33 · 565 阅读 · 0 评论 -
条件随机场(CRF)及CRF++安装使用
这个,终于到了要解决命名实体识别的问题,搞自然语言处理,貌似这个绕不开的。CRF,传统的干这活的利器,听名字就是高大上。既然绕不开,那就整整吧。 CRF是用来标注和划分序列结构数据的概率化结构模型。言下之意,就是对于给定的输出,标识序列Y和观测序列X,条件随机场通过定义条件概率P(Y | X),而不是联合概率分布P(X, Y)来描述模型。 很清楚了,这是个判别模型。 CRF也可以看做原创 2017-05-03 16:47:14 · 3060 阅读 · 0 评论 -
LDA小结及在gensim中的应用
首先,感谢Rickjin的《LDA数学八卦》,能兼具如此数学功底和写作功底的人,着实不多。这是我的个人的思路小结,没有数学推导,如果想仔细研究,推荐大家去阅读那篇八卦,写的很精彩。 LDA是NLP领域一个非常重要的非监督算法。一直想仔细研究一番。 看完Rickjin的《LDA数学八卦》,不说理解透彻,这个算法前前后后的思考过程还是比较清晰的。 首先,why?LDA出现的原创 2017-05-06 23:43:31 · 2111 阅读 · 0 评论 -
CNN情感分析(文本分类)
这篇文章翻译至denny britz的博客,本来想自己用TensorFlow实现CNN情感分析,看过denny的github后,就决定不浪费时间了。当然,会在他的基础上做一些改进。一、数据预处理 这个情感分析的数据集来自Rotten Tomatoes的电影评论,总共10662个样本,一半正例,一半负例,词汇的数目大概2万个。 任何机器学习能够得到很好的执行,数据预处理都很重要。首先,简单介翻译 2017-05-10 22:58:09 · 23120 阅读 · 10 评论