数据挖掘
文章平均质量分 78
glory8901
这个作者很懒,什么都没留下…
展开
-
Python机器学习之文本分类——朴素贝叶斯分类器
参考1:Python机器学习(5)——朴素贝叶斯分类器 - 钱银 - 博客园朴素贝叶斯分类器是一个以贝叶斯定理为基础,广泛应用于情感分类领域的优美分类器。本文我们尝试使用该分类器来解决上一篇文章中影评态度分类。1、贝叶斯定理假设对于某个数据集,随机变量C表示样本为C类的概率,F1表示测试样本某特征出现的概率,套用基本贝叶斯公式,则如下所示:上式表示对于某个样本,特征F1出现时,该样本被分为C类的条件概率。那么如何用上式来对测试样本分类呢?举例来说,有个测试样本,其特征F1出现了.转载 2021-11-29 17:39:03 · 2362 阅读 · 0 评论 -
gensim使用
1. gensim 读取tencent ai参考文档:gensimmodels.keyedvectors – Store and query word vectors>>> from gensim.test.utils import common_texts>>> from gensim.models import Word2Vec>>>>>> model = Word2Vec(common_texts, size=..原创 2021-10-25 15:29:29 · 173 阅读 · 0 评论 -
中文查重原理 及算法实例(python)
1. simhash的算法原理https://github.com/1e0ng/simhashhttps://github.com/1e0ng/simhashsimhash的中文实现(python) - 简书最近工作上需要处理文本相似度的问题,一共5万多个文档;第一步,是先是要进行颗粒度较粗的,发现基本相似的文档,进行基本的 “聚类”;第二步,针对相似的文档,然后进行详细的比较;...https://www.jianshu.com/p/1187fb7c59c5GitHub - tianlian0/du.原创 2021-10-25 15:27:39 · 3847 阅读 · 0 评论 -
sklearn及gensim下lda模型的训练
sklearn【sklearn】利用sklearn训练LDA主题模型及调参详解_TiffanyRabbit的博客-CSDN博客sklearn不仅提供了机器学习基本的预处理、特征提取选择、分类聚类等模型接口,还提供了很多常用语言模型的接口,LDA主题模型就是其中之一。本文除了介绍LDA模型的基本参数、调用训练以外,还将提供两种LDA调参的可行策略,供大家参考讨论。考虑到篇幅,本文将略去LDA原理证明部分。https://blog.csdn.net/TiffanyRabbit/article/details原创 2021-10-08 17:51:51 · 2077 阅读 · 0 评论 -
中文文本挖掘预处理流程总结
在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点 首先我们看看中文文本挖掘预处理和英文文本挖掘预处理相比的一些特殊点。 首先,中文文本是没有像英文的单词空格那样隔开的,因此不能直接像英文一样可以直接用最简单的空格和标点符号完成分词。所以一般我们需要用分词算法来完成分词,在文本挖掘的分词原理中,我们已经讲到了中文的分词原理,这里就不多说。 第二,中..转载 2021-10-08 16:37:33 · 1082 阅读 · 0 评论