根据老师给的文档瞎总结内容
只给出概念 具体内容要自己去拓展
不可靠
随便看看就好
大数据的性质
-
非结构性:大数据中的非结构化数据占比较大,无法预知其结构。需要探索合理的组织方式。
-
不完备性:大数据常包含不完整和错误的数据,需要进行清洗和整合。
-
时效性:处理速度要快,满足用户实时分析的需求。
-
安全性:需消除隐患和漏洞,保护隐私。
-
可靠性:需要满足一定的处理步骤,使分析过程完整。
大数据的五个特性
数据容量(Volume)
速度(Velocity)
多样性(Variety)
真实性(Veracity)
价值(Value)
-
大数据分析的类型
-
描述性分析:对历史数据进行统计和分析。
-
诊断性分析:探索事件背后的原因。
-
预测性分析:通过分析历史数据预测未来。
-
规范性分析:在预测基础上做进一步挖掘和解释原因。
大数据技术特征
-
分析全面数据:不需要随机抽样,可以使用全体数据进行分析。
-
重视复杂性:不需要过于精确,趋势和轮廓更重要。
-
面向PB级数据:需要通用工具支持全流程数据处理。
常用的大数据分析模型和方法
-
有监督学习:回归、分类等。
-
无监督学习:聚类、降维等。
-
半监督学习、深度学习、模型方法等。
大数据面临一些热点问题
如何处理非结构化和半结构化数据;学科的发展需要建立通用工具支持数据采集、管理、分析和可视化。
大数据的价值体现在其能够通过相互关系分析获得更准确快捷的知识,而不需要知道背后的因果关系
数据预处理的目的和意义
-
提高数据质量:初始数据往往存在缺失值、重复值、异常值或者错误值,这些“脏数据”会影响模型的构建和预测效果。通过数据预处理,可以清洗这些不规范的数据,从而提高数据质量。
-
提高挖掘结果的可靠度:数据的质量直接影响到数据挖掘的结果。如果数据存在噪声或错误,那么挖掘出的模式可能存在误导性。因此,数据预处理是提高数据挖掘结果可靠性的重要步骤。
-
使模型更加稳定:数据预处理中的异常值处理可以使模型对异常值具有更强的鲁棒性,从而使模型更加稳定。
-
提高模型的计算效率:将连续型变量离散化后,可以大大减少数据集的大小,从而降低模型的计算复杂度,提高计算效率。
-
增强数据的可解释性:数据预处理,如特征编码和离散化,可以使数据的表示更加直观和易于理解,增强了数据的可解释性。
缺失值处理的方法
-
删除法:直接删除包含缺失值的样本或属性。缺点是可能损失较多信息。
-
热平台填补:用某个固定值或模型预测值填补缺失值。缺点是可能引入偏差。
-
K-Means填补:找与缺失值最接近的样本填补。缺点是可能引入自相关问题。
-
期望最大化(EM算法)填补:通过迭代求解参数的最大似然估计来填补缺失值。缺点是计算复杂,收敛速度慢。
-
C4.5(决策树)填补:通过寻找属性关系用已知属性值推断缺失值。仅适用于属性值为离散值的情况。
-
贝叶斯Bootstrap方法和近似贝叶斯Bootstrap方法:通过有放回抽样和替换进行填补,属于随机填补方法。可以引入不确定性。
数据标准化的方法
-
Z-Score标准化:将数据转化为标准正态分布,需要记录原数据的均值和方差。适用于最大最小值未知的情况。
-
0-1标准化:将数据范围映射到[0,1]之间,适用于分布比较离散的数据。缺点是可能需要重新定义最大最小值。
-
小数定标标准化:通过移动小数点位置进行标准化,适用于数据分布离散且遍布多个数量级的情况。
-
Logistic标准化:将数据转换为[0,1]之间的值,适用于分布集中且远离零点的数据。缺点是可能改变原始分布关系。
选择何种标准化方法的原则
需要考虑数据的特点和应用场景选择合适的标准化方法,如数据分布情况、是否有缺失值、是否需要保持原有关系等。