R语言——三个数据集

最新推荐文章于 2024-09-25 12:00:30 发布

曹文杰1519030112

最新推荐文章于 2024-09-25 12:00:30 发布

阅读量2.1k

点赞数 1

分类专栏： R 语言数据挖掘文章标签：数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39594033/article/details/108023069

版权

R 语言数据挖掘专栏收录该内容

2 篇文章 0 订阅

订阅专栏

第一章数据概览

（1）三个数据集
参考

“数据” 是我们进行数据挖掘的起点。只要我们细心观察，我们可以发现数据无处不在。一个小商店，某一天的可乐销售量是单个数据；某影院，《疯狂原始人》的每场上座率是一组数据：京东商城某次促销活动期间，各商品的折扣、浏览量、销量，及各商品间的购买关联性等，已可以构成一个值得去动手分析的数据集；中国各省市，乃至世界各国家近十年的人口数、出生率、死亡率等则是更庞大丰富的数据集合；在各个领域更有医学、气象学、遗传学等涉及高深专业知识的数据等。

（1）三个数据集

本节简单引入 R 软件中的三个自带数据集进行解释。

1.1 uspop 数据集为一组时间序列数据，从 1790 年至 1970 年，每隔 10 年取一个值

uspop

在这里插入图片描述

1.2 Titanic 数据集记录了泰坦尼克号沉船事件中乘客年龄，性别，船舱等级，以及是否存活 4 项信息。

在这里插入图片描述

1.3 Women 数据集是一张 15*12 的表格，相应存放着 15 个样本和 2 个变量的数据信息。

women

在这里插入图片描述
无论原始数据记录形式如何，都可以通过适当整理使之成为我们熟悉的 nm 表格形式，这种 nm 表格形式是各项数据分析的基本形式，便于软件读入，函数识别，数据预处理等步骤展开。但不排除其他列表形式对于特殊分析的便捷性，比如说 Titanic 数据集，这样的列联表就是进行列联分析的最佳形式。

一般来说，当拿到一份数据时，最先做的往往就是查看数据集的观测样本数、变量数，以及这些变量的实际含义，以此对数据集的庞大程度和各变量的相对重要程度做到心里有数。这对选取何种数据挖掘算法，以及在这之前应该抽取多少及哪些变量和样本纳入建模中都有着重要的先导作用。

参考

[1] 黄文，王正林.数据挖掘:R语言实战[M].电子工业出版社，北京，2014.

曹文杰1519030112

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。