- 博客(6)
- 收藏
- 关注
转载 id3决策树
回顾决策树的基本知识,其构建过程主要有下述三个重要的问题: (1)数据是怎么分裂的 (2)如何选择分类的属性 (3)什么时候停止分裂 从上述三个问题出发,以实际的例子对ID3算法进行阐述。先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打
2017-08-22 11:41:46 2977
原创 信息熵
一、信息熵概念在信息论中,熵是对每条传播信息中含有的信息量的接受量的平均表示,它是不确定性的度量。在信息世界,熵越高,则能传输越多的信息(越稳定,不确定性越小),熵越低,则意味着传输的信息越少。例:假设一个随机变量X,取三种可能值{\displaystyle {\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}},概率分别为{\
2017-08-22 09:21:14 1990
原创 回归分析
一、回归分析它是一种通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种工具。二、研究范围线性回归非线性回归logistic回归岭回归主成分回归岭回归和主成分和回归都是解决变量之间的多重共线性关系的,是对最小二乘法的改进三、常见的二分类回归模型———logistic回归(1)Locistic 函数模型中因变量只有0和1,假设p个独立
2017-08-18 08:53:05 1752
原创 分类与预测
一、分类分类:输入样本数据,输出对应的类别,将样本中每个数据对应一个已知属性。(有监督学习)分类算法分为两步:(1)学习步:通过训练样本数据集,建立分类规则(2)分类步:用已知的测试样本集评估分类规则的准确率,若准确率可接受,则是使用该规则对除样本以外的数据(待测样本集)进行预测。二、预测预测:两种或者两种以上的变量之间相互依赖的函数模型,进行预测或者控制。预测算法分两
2017-08-15 08:52:34 3880
原创 R语言小波转换
一、解决问题始于图像处理,数据分析前对数据进行分层处理二、思想将数据分为高频和低频,由母小波经过平移和尺度伸缩表示原本的数据的高频和低频三、代码#需要用到的包:waveslimN=1024k=6x=((1:N)-N/2)*2*pi*k/Ny=ifelse(x>0,sin(x),sin(3*x))signal=y+rnorm(N)/10library(
2017-08-14 11:11:39 6613 1
原创 主成分分析
一、解决的问题数据处理过程中多维数据的降维问题。多个变量之间存在相关关系,在分析过程中会耗费资源二、思路利用变量之间的线形组合,将要处理的数据利用初始数据变量的线性组合减少数据的维数,最后选取主成分方差累计贡献率大于80%的主成分作为处理变量即可。三、代码data:需要降为的数据newData=princomp(data,cor=T#使用相关系数法进行主成分分析))su
2017-08-14 10:24:49 463
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人