Data minding
文章平均质量分 56
我是猫
这个作者很懒,什么都没留下…
展开
-
k-平均算法
k-平均算法 k-平均算法源于信号处理中的一种向量量化方法,现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类,以之作为聚类的标准。k-平均聚类倾向于在可比较的空间范围内寻找聚类,期望-最大化技术却允许聚类有不同的形状。 给定表示为d的N个实例的数据集(),原创 2017-03-02 08:03:50 · 3413 阅读 · 0 评论 -
数据挖掘(三)聚类
聚类是一个将数据集分成若干个簇或类的过程,表示同一类的数据具有高度的相似性。聚类分析(英语:Cluster analysis,亦称为群集分析)是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系原创 2017-03-17 08:36:28 · 878 阅读 · 0 评论 -
数据表示
在计算机系统中,数据类型是所有数据的基本表示方法。计算机的基本功能是对数据、文字、声音、图形、图像和视频等信息进行加工处理,其中数据有两大类:一类是数值数据,如+314、-3.14、53等,有“量”的概念;另一类是非数值数据,如各种字母和符号。无论是数值数据还是非数值数据,在计算机中都是用二进制数码表示的,而文字、声音、图形、图像和视频等信息要在计算机中处理,都要事先数字化,即把文字、声音、图形、图原创 2017-03-21 21:26:33 · 1235 阅读 · 0 评论 -
信息检索
搜索文档或文档中信息的科学。文档可以是文本或多媒体,并且可能驻留在Web上。 信息检索与数据库系统的差别:信息检索假定所搜索的数据是无结构的;信息检索查询主要用关键词,没有复杂的结构。 主题模型:一个文本文档集的主题可以用词汇表上的概率分布建模。文件类型检测 语言检测 检测文件语言类型检测特定字符 使用split()对文本内容进行区分,区分不同词语,进行标记 标记化倒排索引原创 2017-03-15 19:38:47 · 545 阅读 · 0 评论 -
感知器算法
感知器算法是一种用于二进制分类的监督学习算法,可以预测数字向量所表示的输入是否属于特定的类。 在机器学习的术语中,分类被认为是监督学习的实例,即,其中可观测得到正确识别的训练集,可将之用于训练学习。 相应的无监督过程被称为聚类或聚类分析,并且涉及基于固有相似性(例如,被视为多维向量空间中的向量的实例之间的距离)的某种度量将数据分组到类别中。 (维基百科) 在人工神经网络领域中,感知机也被指为单层原创 2017-03-15 23:48:10 · 21249 阅读 · 1 评论