数据挖掘与R语言——第二章(预测海藻数量)

<p>一、首先介绍两个非常给力的讲 ggplot2 绘图的博客:</p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part1/#comments">http://www.cellyse.com/how_to_use_gggplot2_part1/#comments</a></p> <p><a title="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments" href="http://www.cellyse.com/how_to_use_gggplot2_part2/#comments">http://www.cellyse.com/how_to_use_gggplot2_part2/#comments</a></p> <p><a title="http://blog.funature.net/tag/ggplot/" href="http://blog.funature.net/tag/ggplot/">http://blog.funature.net/tag/ggplot/</a></p> <p>二、代码加注释</p> <p>####安装依赖包,并加载##### <br />if (require('DMwR') == 0) { <br />&#160;&#160;&#160; install.packages('DMwR') <br />&#160;&#160;&#160; <br />} <br />if (require('ggplot2') == 0) { <br />&#160;&#160;&#160; install.packages('Rcpp') <br />&#160;&#160;&#160; install.packages('ggplot2') <br />} <br />library('DMwR') <br />library('ggplot2')</p> <p>####数据可视化##### <br />View(head(algae)) <br />summary(algae) <br />##绘制箱线图并且旋转坐标轴 <br />myp &lt;- ggplot(algae) <br />myp + geom_boxplot(aes(x = size, y = a1), horizontal = T) + coord_flip()</p> <p>####缺失值处理##### <br />##查找非缺失值行 <br />nrow(algae[complete.cases(algae), ]) <br />##查找每行的缺失值的个数 第二个参数 1 表示行 2 表示列(传递给后面的函数) <br />apply(algae, 2, function(x) sum(is.na(x))) <br />##缺失值处理一、用次数最多的那个数据填补缺失值 <br />#直接剔除缺失属性比样本个数的20%还要多的样本 <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />#利用样本的中心趋势填充缺失值 <br />dalgae &lt;- centralImputation(algae) <br />##缺失值处理二、通过变量的相关关系填补缺失值 <br />#计算变量之间的相关关系 <br />cormatrix &lt;- cor(dalgae[, 4:18], use = &quot;complete.obs&quot;) <br />#更加直观的查看 <br />symnum(cormatrix) <br />##缺失值处理二、通过样本的相似度填补缺失值(第一步:一定要去量纲) <br />dalgae &lt;- algae[-manyNAs(algae, 0.2), ] <br />##考虑最近的十个样本,加权平均 <br />dalgae &lt;- knnImputiation(dalgae, 10) <br />##考虑用中位数填补 <br />dalgae &lt;- knnImputiation(dalgae, 10, meth = &quot;media&quot;) </p>

转载于:https://my.oschina.net/u/1244232/blog/404980

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值