自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 大数据分析与挖掘-Part2-数据预处理

大数据分析与挖掘-Part2-数据预处理 为什么要进行数据预处理? 初始数据集的准备与变化是数据挖掘的过程中重要步骤 包含大量不完整,含噪声和不完整的数据是大数据应用中的典型特点 数据的预处理能够有效提高数据质量,节约大量的时间和空间 大部分数据挖掘算法对输入数据的格式,质量以及规模有一定的要求 现实世界的数据是“脏的” 随着数据规模的增加,会出现很多数据质量问题: 不完整 缺失值:缺乏某些重要属性,仅包含聚集数据 噪声 包含错误值,离群点 不一致 由于重复存放的数据未能进

2021-07-05 19:29:43 1892

原创 大数据分析与挖掘-Part1-绪论

大数据分析与挖掘-Part1-绪论 大数据基本特征(4V) Volume 数据体量大 Variety 数据多样性,且多为非结果型数据 Value 价值密度低 Velocity 速度快,实时性高,对于高速动态数据流,处理数据越即时,产生的价值越大 (大)数据挖掘概念 从大量数据中抽取出有价值的信息和模式的过程 数据挖掘一般流程 数据集选取 一般数据集是已经存在的或者至少知道如何获得的(访问某个资料库,网上过滤抓取需要的数据,问卷调查手动收集等)。数据集的选取对数据挖掘模式是否有趣起决定

2021-07-04 23:51:51 178

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除