机器学习
hunauchenym
这个作者很懒,什么都没留下…
展开
-
多类分类和多标签分类
给定一组训练实例(X1,Y1),(X2,Y2),......(Xn,Yn),典型地,每个实例Xi i=1,2,...,n是一个m维向量,Yi是一个有l(l>=1)个类别的向量,分类的任务是从训练实例中学习一个模型f:X->Y,从而对新的实例给出一个值得信赖的类别预测。多类分类(multiclass classification)学习的分类器旨在对一个新的实例指定原创 2009-12-06 09:15:00 · 16013 阅读 · 0 评论 -
weka中的数据预处理
<br />数据预处理包括数据的缺失值处理、标准化、规范化和离散化处理。<br />数据的缺失值处理:weka.filters.unsupervised.attribute.ReplaceMissingValues。 对于数值属性,用平均值代替缺失值,对于nominal属性,用它的mode(出现最多的值)来代替缺失值。<br />标准化(standardize):类weka.filters.unsupervised.attribute.Standardize。标准化给定数据集中所有数值属性的值到一个0均值原创 2010-08-29 10:29:00 · 19846 阅读 · 2 评论 -
实现机器学习算法的三代工具
1、传统的机器学习和统计分析的工具包括SAS,SPSS,Weka和R,他们允许小数据集的深度分析。 2、第二代机器学习工具如Mahout,Pentaho和RapidMiner,可以对大数据进行浅分析。 3、第三代工具如Spark,Twister,Haloop,Hama和GraphLab可以方便地对大数据进行深度分析。原创 2013-03-17 18:30:39 · 2772 阅读 · 0 评论 -
数据处理中使用的各种熵
信息论起源于解决通信问题,标志性论著是香农的《通信的数学原理》。随着信息技术的发展,信息论思想不断用于机器学习和数据处理领域,解决数据分析问题。 熵是信息论中最重要和基础的概念,是概率分布的泛函,表示随机变量不确定性的大小,即假设某随机变量的概率密度为p(x)p(x),则信息熵表示为H(p)H(p)。信息技术中经常使用的熵有下列几种: 1.自信息 自信息表示随机变量XX某个取值xix_i的不确原创 2015-11-23 11:36:54 · 5862 阅读 · 0 评论