机器学习
Miracle42
这个作者很懒,什么都没留下…
展开
-
数据挖掘 文本分类 知乎问题单分类(四):分类
数据挖掘 文本分类 知乎问题单分类(四):分类朴素贝叶斯贝叶斯定理[^1]贝叶斯分类朴素贝叶斯分类器(Naive Bayes)朴素贝叶斯文本分类例子朴素贝叶斯文本分类算法朴素贝叶斯如何利用向量空间模型进行分类计算?代码实现SVM参考经过前几部分的准备,现在我们终于要到最后使用模型分类的时刻了。这里我们使用了多项式朴素贝叶斯分类器和SVM分类器进行分类。朴素贝叶斯贝叶斯定理1贝叶斯定理是关...原创 2020-01-07 15:50:54 · 774 阅读 · 0 评论 -
数据挖掘 文本分类 知乎问题单分类(三):数据预处理
数据挖掘 文本分类 知乎问题单分类(三):数据预处理从数据库导出(选)读取与去噪分词构建词向量TF-IDF是什么TF(词频 term frequency)IDF(逆向文件频率Inverse Document Frequency)TF-IDF参考上节我们讲到那杰洛特啊, 在对抗迪精的过程中与叶奈法建立了灵魂绑定,哦,不好意思串戏了。今天我们接着来说文本分类中的另外一个重要问题:如何进行数据预处理。...原创 2020-01-06 23:08:25 · 1279 阅读 · 0 评论 -
tf-idf 算法中idf为何使用对数?直接用比值或者其他函数不行吗?
首先介绍一下什么是TF-IDF,然后我们再对问题解答。已经对TF-IDF有一定了解的同学可以直接跳到最后阅读。TF-IDF是什么TF-IDF是一种用于资讯检索与资讯探勘的常用加权技术,一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度,主要用于文本分类的特征选择。在TF-IDF统计中,字词的重要性随着它在一种文件中出现的次数成正比增加,但同时会随着它在语料库中出...原创 2020-11-22 15:11:59 · 792 阅读 · 0 评论