![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本挖掘
文章平均质量分 68
Subson
这个作者很懒,什么都没留下…
展开
-
数据集质量提升方法及代码实现
数据集质量提升方法及代码实现本文系Subson原创,转载请注明。前言该方法针对已明确类别的文档组成的数据集进行质量提升,其代价是数据集变小。主要思想计算数据集的词典中所有词的熵【entropy】,熵越小说明该词的类别区分性越强。原创 2017-03-06 22:31:56 · 824 阅读 · 0 评论 -
关于GSDMM的数学思考
关于GSDMM的数学思考GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD(数据挖掘及知识发现会议,ACM SIGKDD,数据挖掘顶级会议[1])上的论文《A Dirichlet Multi原创 2017-10-11 17:24:46 · 5128 阅读 · 0 评论 -
一个单线程爬取英文维基百科正文与链接关系的Python爬虫
一个单线程爬取英文维基百科正文与链接关系的Python爬虫正文如题。代码参数详见代码(点击下载),运行结果为两个TXT文件,分别记录正文以及网页关系,文件保存格式详见同代码目录文本文件(文本为爬取深度为1的结果)。原创 2017-09-18 11:56:33 · 1006 阅读 · 0 评论 -
大数据融合技术:问题与挑战
大数据融合技术:问题与挑战本文为《大数据融合研究:问题与挑战》的总结。概述数据的特点:多元性——数据类型多样;数据内容“维度”多样;数据所涉及的知识范畴的“粒度”多样演化性——指数据随时间或解释的变化而变化的特性真实性——由实体的同名异义、异名同义表示以及关系的变化引起普适性——指在认知范围内达成共识的特性,例如“老师”和“蜡烛”具有该特性数据湖:数据集成的对象,即数据与知识的复合体。传统原创 2017-06-19 18:30:12 · 15099 阅读 · 1 评论 -
在Java中使用Lambda表达式统计词频
在Java中使用Lambda表达式统计词频常规方法在集合(List)上调用stream()生成该集合元素的流视图,然后采用将一个返回流的函数传入flatMap(),这样会产生每个单词,最后将这些词进行统计存入Map中,这里会使用counting函数原创 2017-05-31 12:00:27 · 2192 阅读 · 0 评论 -
将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式
将txt文本格式存储的词id表示的数据集存为matlab中的sparse格式在对文本数据进行聚类的时候,经常会处理超高维的稀疏矩阵。例如进行K-means聚类的时候,特别是短文本聚类,输入往往是M×N的超稀疏矩阵(M表示文档数量,N表示词典大小)。如果将所有数据(包括0)导入,将非常浪费内存资源。所以,在采用matlab使用超稀疏矩阵时,最好将该矩阵存为sparse格式。原创 2017-05-06 17:53:48 · 757 阅读 · 0 评论 -
A Tutorial on Clustering Algorithms - Clustering Algorithms【翻译】
原文章 A Tutorial on Clustering Algorithms 的 Clustering Algorithms 翻译内容翻译 2017-03-11 21:25:31 · 805 阅读 · 0 评论 -
A Tutorial on Clustering Algorithms - Introduction【翻译】
原文章 A Tutorial on Clustering Algorithms - Introduction 翻译内容翻译 2017-03-09 14:09:09 · 858 阅读 · 0 评论 -
A Tutorial on Clustering Algorithms - K-means【翻译】
原文章 A Tutorial on Clustering Algorithms 的 K-means 翻译内容翻译 2017-03-12 15:14:11 · 784 阅读 · 0 评论 -
基于B-gram句子概率计算实现
基于B-gram句子概率计算实现概述该“句子出现概率计算”基于B-gram算法,若不了解请自行百度。如果急于使用,请下载笔者已经训练好的模型文件(model.txt,置于项目根目录);如果想自行训练,可以使用语料库(千万级巨型汉语词库);下面是下载地址:项目链接:ProbabilityOfSentence语料链接:https://pan.baidu.com/s/1c3WWo原创 2018-01-29 11:04:22 · 2043 阅读 · 0 评论