2022春期末总结报告
题目:
要求:
1. 数据要求:
自己任意选择一个数据集,数据量不少于4000条。
(1.可在数据集网站中选择,如kaggle等。
2.从网上爬取数据 )
2. 数据分析与挖掘要求
(1)写出总体需求
(2)按照后期进行数据分析的需求,对数据进行预处理。
(3)描述性统计:选择合适的方法对数据进行统计分析。包括对数值型和类别型属性的统计,并对分析结果进行图形化的展示(使用ggplot2或者lattice包)。
(4)推断性统计:选择合适的假设检验方法,分析属性间的相关性、两组数据间是否具有显著性差异,分析结果并给出结论及必要的图形展示。
(5)数据挖掘
根据数据特征及需求,利用分类、聚类或时间序列方法挖掘蕴含在数据中的模式及必要的图形展示。
注意:对聚类结果分析聚簇特征
对分类结果计算准确性。
使用时间序列分析方法可判断数据是否存在趋势、周期性等特征,或对数据进行预测。
(分类、聚类、时间序列至少使用2种方法,若无法使用2种方法,则需要完成(6)附加题)
(6)附加题:自由选择方法,分析数据特征或挖掘蕴涵模式,并展示结果。
3. 报告要求
(1)应在报告中体现:
1)每一个分析的目标是什