![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
data mining
小小程序员.
这个作者很懒,什么都没留下…
展开
-
数据挖掘——线性回归
1. 线性回归某班主任为了了解本班同学的数学和其他科目考试成绩间关系,在某次阶段性测试中,他在全班学生中随机抽取1个容量为5的样本进行分析。该样本中5位同学的数学和其他科目成绩对应如下表:学生编号12345数学分数m8991939597物理分数p8789899293语文分数c7276747176英语分数e8388829189化学分数ch9093918994利用以上数据,建立m与其他变量的多元线性回...原创 2018-06-27 00:13:11 · 2923 阅读 · 0 评论 -
数据挖掘——逻辑回归
逻辑回归研究人员对使用雌激素与子宫内膜癌发病间的关系进行了1:1配对的病例对照研究。病例与对照按年龄相近、婚姻状况相同、生活的社区相同进行了配对。收集了年龄、雌激素药使用、胆囊病史、高血压和非雌激素药使用的数据。变量定义及具体数据如下:match:配比组case:case=1病例;case=0对照(未发病)est:est=1使用过雌激素;est=0未使用雌激素;gall:gall=1有胆囊病史;g...原创 2018-06-27 00:21:12 · 711 阅读 · 0 评论 -
数据挖掘——支持向量机
支持向量机考虑以下的两类训练样本集特征1特征2类标11+22+20+00-10-01-(1) 在图中画出这6个训练样本点和支持向量机对应的最优超平面(决策边界),并写出对应的超平面方程;(2) 假设增加一些训练样本点,这些点能被正确分类且远离最优超平面(决策边界),说明最优超平面(决策边界)不受新增训练样本点影响,而线性回归会受影响的原因;(3) 指出哪些是支持向量,并求出两个异类支持向量到最优超...原创 2018-06-27 00:28:12 · 998 阅读 · 0 评论 -
数据挖掘——模型的性能度量
模型的性能度量我们需要比较两个分类模型和。他们在10个二类(+或-)样本所组成的测试集上的分类结果如下表格中所示。假设我们更关心正样本是否能被正确检测。InstanceTrue ClassScores from Scores from 1+0.730.612+0.690.033-0.440.684-0.550.315-0.670.456+0.470.097-0.080.388-0.150.059+...原创 2018-06-27 00:35:29 · 810 阅读 · 0 评论 -
数据挖掘——神经网络
神经网络考虑以下的二类训练样本集InstanceFeature vector Output label 1(0, 0)+2(1, 0)+3(0, 1)-4(-1, 0)-5(1, -1)-对此训练样本集,我们需要训练一个三层神经网络(输入层、单隐层、输出层),其中单隐层的单元(神经元)数目设为2,激活函数(activation function)为Sigmoid函数: (1)在二维坐标系中画出这5...原创 2018-06-27 00:38:51 · 6204 阅读 · 0 评论 -
数据挖掘——决策树
决策树考虑以下的二类训练样本集InstanceABClass Label1TF+2TT+3TT+4TF-5TT+6FF-7FF-8FF-9TT-10TF-(1)计算以属性A或B为划分的信息熵(Entropy)增益,并说明决策树学习算法选择哪个属性进行划分;(2)计算以属性A或B为划分的Gini增益,并说明决策树学习算法选择哪个属性进行划分;(3)计算以属性A或B为划分的分类误差(Classific...原创 2018-06-27 00:42:08 · 376 阅读 · 0 评论