![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mmseg4j学习
小飞侠-2
我的github地址https://github.com/liujiekasini 欢迎大家分享讨论
展开
-
利用mmSeg4j分词实现网页文本倾向性分析
利用mmSeg4j分词实现网页文本倾向性分析 最近一直在做网页情感倾向性分析的工作,找了一些论文,发现基于机器学习的算法在项目中不太合适,于是自己鼓捣了一套基于中文分词和正负面词库的分析算法。 原理很简单: 文章倾向性 = ∑(出现的正面词汇 * 权重) —∑(出现的负面词汇 * 权重)。 在这个转载 2015-12-16 10:19:57 · 897 阅读 · 0 评论 -
中文分词技术(中文分词原理)
一、 为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、原创 2015-12-16 16:00:38 · 1227 阅读 · 0 评论 -
偷梁换柱:MMSeg4j借用庖丁解牛的词库
“……他不回答,对柜里说,“温两碗酒,要一碟茴香豆。”便排出九文大钱。他们又故意的高声嚷道,“你一定又偷了人家的东西了!”孔乙己睁大眼睛说,“你怎么这样凭空污人清白……”“什么清白?我前天亲眼见你偷了何家的书,吊着打。”孔乙己便涨红了脸,额上的青筋条条绽出,争辩道,“窃书不能算偷……窃书!……读书人的事,能算偷么?”接连便是难懂的话,什么“君子固穷”,什么“者乎”之类,引得众人都哄笑起来;店内外充转载 2015-12-16 14:38:51 · 1334 阅读 · 0 评论