数据管理与探索 (R)

小小的个人笔记

已于 2023-06-07 22:15:09 修改

阅读量80

点赞数

文章标签： r语言

于 2023-06-06 13:51:21 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40215208/article/details/131065567

版权

数据获取

1. 从文件中获取

1) csv格式

read.csv()

read.table()

# readr包

read_csv()

2) Excel

read_excel()

3) spss

read.spss() # foreign包

read_sav() # haven包

4) sas

read_sas()

5) Stata

# haven包

read_dta()

read_stata()

6) MATLAB

# R.matlab包

readMat()

2. 网络爬虫

1) 从网页中获取链接和表格

# XML包

readHTMLTable()

# 注意将https格式的网页链接调整为http

fileURL = "link"

fileURL_new = sub("https", "http", fileURL)

2) 从网页中获取文本

# rvest包

read_html()

html_nodes() 定位

html_text() 获取文本

缺失值处理

1. 缺失值的判别

1) summary()

2) 可视化：VIM包

aggr(): 查看数据缺失值分布

!complete.cases()：缺失值输出

matrixplot(): 热力图可视化

is.na() 查看数据缺失值的位置

2. 缺失值的简单处理

2.1 剔除带有缺失值的样本

1) na.omit() 函数

2.2 填补缺失值

计算剔除缺失值后的平均值、中位数等

na.rm = T

1) 平均值：mean()

2) 中位数：median()

3) 众数

table()

Hmisc包，impute() 函数

4) zoo包：na.locf() 使用缺失值的前面或后面的数值填补缺失值

3. 处理缺失值的复杂方法

1) K-近邻填补缺失值

DMwR包

knnImputation()

2) 随机森林填补缺失值

missForest包

missForest()

3) 缺失值的多重插补（重复模拟，蒙特卡洛方法填补）

数据操作

1. 长宽型数据转换

1) tidy包

宽型数据转化为长型数据：gather() 函数

长型数据转化为宽型数据：spread() 函数

2) reshape2包

宽型数据转化为长型数据：melt() 函数

a = melt(data, id = c("Id","Species"), variable.name = "varname", value.name = "value")

参数：id，原始数据中该变量保持不变。

长型数据转化为宽型数据：dcast() 函数

b = dcast(data, Id+Species~varname)

转换时忽略~前的变量

2. 数据分类汇总

1) dplyr包

group_by() 函数

3. 数据属性转换

1) 数据中心化：变量减去它的平均值

scale(data, center = T, scale = F)

2) 数据标准化：变量减去它的平均值然后除以它的标准差

scale(data, center = T, scale = T)

3) min-max标准化（0-1标准化）：变量减去它的最小值然后除以它的最大值和最小值的差

4. 数据切分

1) 通过随机数进行切分

2) 使用 carte包按比例切分数据

createDtaPartition(data$var, p=0.7) #70%训练数据集，30%测试数据集

3) K折交叉验证进行随机切分

createFolds(data$var, k=3) 数据均分为3粉的索引

小小的个人笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据管理与探索 (R)

3) min-max标准化（0-1标准化）：变量减去它的最小值然后除以它的最大值和最小值的差。createFolds(data$var, k=3) 数据均分为3粉的索引。2) 数据标准化：变量减去它的平均值然后除以它的标准差。宽型数据转化为长型数据：gather() 函数。长型数据转化为宽型数据：spread() 函数。长型数据转化为宽型数据：dcast() 函数。宽型数据转化为长型数据：melt() 函数。2) 使用 carte包按比例切分数据。1) 数据中心化：变量减去它的平均值。
复制链接

扫一扫

小小的个人笔记 CSDN认证博客专家 CSDN认证企业博客

码龄7年

10: 原创

135万+: 周排名

119万+: 总排名

2864: 访问

: 等级

123: 积分

2: 粉丝

3: 获赞

6: 评论

4: 收藏

私信

关注

热门文章

分类专栏

R语言 3篇
Linux 2篇

最新评论

回归分析方法
CSDN-Ada助手: 恭喜您写完了第10篇博客，题目“回归分析方法”看起来非常有深度。您的坚持写作的精神值得赞赏，也为我们提供了很多有价值的知识。接下来，建议您可以结合实际案例或者数据进行更深入的探讨，让读者更好地理解和应用回归分析方法。期待您的下一篇作品。 CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply10 看奖励名单。
数据管理与探索 (R)
CSDN-Ada助手: 非常感谢您的分享！数据管理与探索是数据分析的重要基础，而R语言是一款强大的数据分析工具，您的博客为学习R语言的人提供了很好的指导和帮助。希望您能继续坚持创作，分享更多关于数据分析的知识和经验。在下一篇博客中，或许您可以分享一些R语言在数据可视化方面的应用，这将为读者提供更丰富的学习资源。感谢您的努力和付出！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply6 看奖励名单。
数据管理和探索 (R)
CSDN-Ada助手: 恭喜你写了第7篇博客，标题也十分精准，内容也很有实用性。建议你在下一步的创作中，可以考虑深入探讨一些数据管理和探索的高级技巧和应用，让读者能够更深入地了解和应用这些知识。期待你的下一篇文章，继续加油！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply7 看奖励名单。
Linux 文本处理
CSDN-Ada助手: 非常感谢用户的第四篇博客，讲述了 Linux 文本处理，这是一个非常实用的主题。祝贺用户持续创作，这些博客不仅能够帮助读者解决问题，也能够提高用户自己的技能水平。建议用户在接下来的创作中，可以考虑分享一些实际的案例或者经验，这将有助于读者更好地理解和应用知识。再次感谢用户的分享。 CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
GEO数据挖掘
CSDN-Ada助手: 恭喜作者又发表了一篇有趣的博客！GEO数据挖掘是一个非常有前途的领域，作者的文章介绍了很多有用的信息。希望作者能够继续保持创作热情，分享更多关于数据挖掘方面的经验和见解。或许可以尝试探索一些新的数据挖掘技术或应用场景，分享给大家。再次感谢作者的分享！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。