NLP
SM-Alan
初入职场的渣渣一枚
展开
-
NLP一些基本概念初识
TF*IDF在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率 (inverse document frequency, IDF) 是一个词语普遍重要性的度量。某一特定词语的IDF,可以原创 2014-07-18 15:53:13 · 2119 阅读 · 0 评论 -
LR逻辑回归Logistic Regression
背景在工作中,需要过滤掉很多色情和赌博类的item,我mentor刚开始说用多分类的分类器,结果被浪浪鄙视了。后来用了LR,效果还不错。之前不知道LR,写个博客mark一下吧。LR逻辑回归 Logistic Regression背景中提到的色情和赌博类的item,其实拆开来看是典型的二分类问题,一个item进来后,先看是不是色情类的,再看是不是赌博类的,每一次分类其实就是一个二分类问题原创 2015-01-11 22:47:00 · 775 阅读 · 0 评论