- 博客(3)
- 收藏
- 关注
原创 3 R语言之探索数据
本文介绍了客户健康保险预测模型的数据探索方法。首先通过描述性统计(如summary()函数)分析数据特征,重点关注缺失值、异常值、数据范围和单位统一性等问题。其次利用可视化工具(ggplot2和WVPlots包)展示数据分布:单变量分析采用直方图、密度图和柱状图;双变量关系研究使用线条图、散点图和平滑曲线等方法。案例特别演示了如何预处理异常数据(如负收入和异常年龄值),并通过相关系数分析和可视化展示年龄与收入的关系。这些数据探索步骤为后续建模工作奠定了重要基础,确保模型输入数据的质量和可靠性。
2026-01-09 08:59:03
837
原创 2 R语言之加载数据
本文介绍了在R语言中处理结构化与非结构化数据的方法。对于结构化数据,可使用read.table()加载CSV等格式数据,并通过summary()、dim()等函数检查数据特征。非结构化数据处理包括四个步骤:数据加载、设置列名、编码映射(使用字典将编码转换为可读文本)和数据转换。文中还演示了如何从关系数据库加载数据,使用DBI包连接数据库,dbWriteTable()写入数据,以及dplyr包进行数据操作。通过实际案例(如德国信贷数据和美国人口普查数据)展示了完整的数据处理流程,包括数据清洗、编码转换和结果保
2026-01-08 23:02:10
1046
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅