![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘与R语言
harderharder
这个作者很懒,什么都没留下…
展开
-
基因特征的选择
特征选择的方法有两种:1)过滤方法,应用变量的统计特征来选择最终的特征集合应用的例子为,12625行特征,94列样本。目前要处理的问题是,对于样本来说特征太多了,这种大维度的数据,大多数的建模技术很难获得有意义的结果,所以首先要降低变量的数量,得到每个特征在所有样本上的总体分布情况。第一种方法:用中位数和四分位距(IQR)表示这些特征的分布,R包中Biobase科技计算矩阵中每行向量的中位数,ro...原创 2018-04-30 21:58:17 · 2551 阅读 · 0 评论 -
R语言中建模技术
基于观测值之间距离的方法,就是K近邻方法,它基于的假设是:同一类型的样本有类似的特征表达值。K近邻算法实际上没有从训练数据得到一个模型,只是存储了这个训练集数据,在给定测试样本时,在存储的训练集中寻找类似的样本作为预测值,选择K个最为相似的训练集样本用来给定测试样本的预测值。因为预测值是采用投票的方法决定的,所以K的选值最好是奇数。 太稀疏的数据选择的K值不要过大。R包class中有实现k...原创 2018-04-30 22:57:23 · 460 阅读 · 0 评论 -
R语言进行数据处理
首先summary数据特性,对于非数值型数据,统计取值的种类数,以及每种出现的频次。对于数值型的特征,统计其数学特性,最小值,第一四分位数,第三四分位数,均值,中位数,最大值,缺失值的数量。 用可视化的方法进行数据检查,每一维的特征都分开检查。观察其分布是否有明显区别。 一 缺失值处理: 1.将有缺失值的样本去除或者进行填补。 可以用平均值进行填补(如果满足正态分布的话);用中位...原创 2018-05-02 11:31:27 · 2446 阅读 · 0 评论 -
R语言中回归树预测模型及其评估
使用回归树预测模型的优点是可以处理缺失值问题,首先需要先加载rpart包。回归树自动筛选某些相关的变量,所以不是所有的变量都会在树中出现。回归树的建立分为2步:1.生成一颗较大的树。然后删除一些底层节点来进行树的修剪。防止过拟合。在构建树的过程中,当给定条件满足时构建过程就停止:1)偏差的减小小于阈值时,2)当节点中的样本数量小于某个给定界限时3)当树的深度大于某个给定的界限时。这三个参数在rpa...原创 2018-05-02 11:51:15 · 4893 阅读 · 0 评论