自然语言处理NLP
Belial_2010
小硕,关注计算机视觉、机器视觉、图像处理和Photoshop算法分析,熟悉模式识别和机器学习。
展开
-
friso中文分词器
一。friso中文分词器Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】1。目前最高版本:friso 1.6.1,同时支持对UTF-转载 2014-09-13 12:04:18 · 1564 阅读 · 0 评论 -
c++ 中文分词介绍
主要参考网站是oschina里面收录的内容: 中科院中文分词 ICTCLAS这个据说效率挺高,但不是纯开源版本,里面有个文章12年7月1日失效,就是由于授权协议失效,所以要用到这个类库的时候要小心了,当然你可以购买版权。还有一个重要的问题是官网打不开。http://www.ictclas.org 协议未知 中文分词软件包 LibMMSegLibMMSeg转载 2014-09-13 11:47:45 · 1542 阅读 · 0 评论 -
friso中文分词器
1、相关简介 friso是使用c语言开发的一个开源的中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php扩展:robbe。2、功能特色1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M】2。mmseg四种过滤算法,分词准确原创 2014-09-13 20:07:54 · 2209 阅读 · 1 评论 -
Matrix67:漫话中文分词算法
记得第一次了解中文分词算法是在 Google 黑板报 上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进 行研究,期间诞生了很多有意思的理论。转载 2014-09-13 20:39:11 · 876 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文转载 2014-09-13 23:29:00 · 909 阅读 · 0 评论 -
friso分词器的应用
先前有一篇博文介绍了friso中文分词器,对friso做了简单的介绍。本文将对博主在使用friso过程中的问题做了一个简单的记录。在使用过程中,主要遇到两个问题,一个是friso.ini的路劲不对,另外一个是friso.lex_dir的配置问题,分析了好久才发现问题所在。对于第一个问题主要是调用int friso_init_from_ifile( friso_t, friso_config_t原创 2014-09-14 12:43:21 · 2626 阅读 · 0 评论