课程难度很大,想要全掌握很难,但是掌握一部分基础算法还是可以的,考试多半也是这个范围。按章节给出。
一,数据分析,大数据技术
概念性章节,没有什么具体算法,主要是讲大数据的发展和应用。(不太重要)
大数据:巨量资料,规模庞大,数据量从TB级别到PB,EB甚至ZB级别。
大数据技术的战略意义不在于掌握庞大的数据,而是要对如此规模的数据进行专业化管理,提高加工能力,实现数据增值。
大数据名称来源:1980年《第三次浪潮》。最早应用:麦肯锡公司。定义:大数据是指大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。
4V特点(考过):Volume(大规模性),Velocity(高速性),Variety(多样性),Value(价值性)。
大数据的构成:海量数据和针对海量数据的处理解决方案。
大数据技术(说的很多,实际上应该都是概念):hadoop框架(实验平台),Mapreduce(分布式并行处理的框架,映射+化简),HDFS体系结构——两类节点,目录节点(负责文件名维护管理,也是客户端访问文件的入口。),数据节点(集群里的机器,负责数据存储和读取。)
Spark:针对Mapreduce的不足,提出的更快的模型,能够处理更复杂的多重处理请求,提供低延迟的交互式查询需求。启用内存分布数据集,还可以优化迭代工作负载。比Hadoop快100倍。
No-sql:非关系型数据库。Redis(键值存储),MangoDB(分布式文件存储),图数据库(在非关系数据库中体现角色关系)
神经网络算法:图像挖掘用CNN,文本挖掘用RNN(概念)
物联网与大数据(看看就行)
二,数据的临近性
相似性:两个对象相似程度的表示,通常取值【0,1】
相异性:不相似程度表示,数值越低越相似,越大越不相似。最小值通常为0,最大值上限不同。
相异性矩阵:体现两两点之间的相异性。是单模对称矩阵(存三角形)
相等区间:定义序数属性之间临近度的标准方法。
一系列距离:曼哈顿距离(横平竖直),欧氏距离(几何距离),切比雪夫距离(也叫棋盘距离,两个点的距离定义为各坐标数值差的最大值),标准化欧氏距离(加入均值作为标准化变量,公式X*=X-m/s,m是均值,s是标准差。),马氏距离(点与分布间的距离)
Jaccard相似系数:主要用于计算符号度量和布尔值度量个体间的相似度(没法衡量具体差异值的大小,只能得到是否相同这个结果)
余弦相似度:向量夹角越小,向量越相似,余弦值的绝对值越大。若值为负则向量负相关。
相关关系:两个或两个以上变量取值之间在某种意义下存在的规律——正相关,负相关,零相关(毫无关系),高相关,低相关,中等程度相关。
相关性的各种系数:完全看不懂,希望不考。
三,数据预处理
为什么预处理?现实中的数据大很多是脏的,例如包括错误点和孤立点,编码存在差异(不一致),重复,不完全,缺少属性等。
不完全数据:收集时未包含;硬件软件损坏等
噪音数据:收集,录入,变换
不一致数据:不同的数据源,违反函数依赖
数据质量因素:采集角度——准确性,完整性,一致性,应用角度——相关性,时效性,用户角度——可信性,可解释性。
数据清理
填充缺失值;处理离群点;光滑噪音;纠正不一致;解决冗余
如何处理空缺值:忽略元组;手动填充;用全局常量填充;使用均值;使用目标同一类所有样本的均值;填写最有可能的值——基于贝叶斯公式或决策树。
最后可能的值:热卡填补法——找到和缺失对象最相似的对象,用来填充缺失的对象。
噪音数据:相对于真实值的偏差或者错误,如孤立点。
噪声判别方法:3seita判别法,基于正态分布,如果超出三倍平均数则认为是异常值;基于密度:密度显著低于大部分临近则分类为离群点,适合非均匀分布。
除去噪声:回归,构造函数符合变化趋势,从而用一个变量预测另一个变量。如线性回归拟合;聚类,通过聚类发现异常数据,忽略孤立点,或者人工审查这些点;分箱:把数据按照规则放进房子,考察每个箱子的数据——等宽划分,等频划分。平滑方法:按平均值平滑,按中值平滑,按边界平滑。
处理不一致数据:人工更正,数据字典——根据给定字典消除不一致。
数据集成
将互相关联的分布式异构数据集成到一起,使用户以透明方式访问。也就是把不同数据源的东西合成用户需要的类型查询。
数据集成方法:联邦数据库FDDS(虚拟连接,通过接口查询互相通讯),数据复制(实际存储方式,将各个源的数据复制到一处,成为数据仓库!)
实体识别问题:多个数据源同一实体的识别,例如重名或者同义但是表示方法不同。(ID和No)
数据冗余:属性重复(同一属性出现多次),属性相关冗余(如一个属性可以由另一个导出),元组重复(两个完全一样的元组),有些荣誉可以用相关分析检测到。
消除冗余:基本思路是排序和合并(很朴素,排个序那么相同的就在一起了)
冲突值检测:单位不同,比例,编码,表示不同。检测到之后可能去要修改某个数据库的属性值。
数据归约
从数据集中获取一个精简的集合,保持原有完整性,而且挖掘结果基本相同。
维规约(降维):减少属性个数。算法:主成分分析,小波变换。
数值规约:用替代的,更小的数据表示替换原数据。参数或非参数。
数据立方体聚集(后期重点)
数据压缩;
离散化与概念分层生成。
维规约:删除不相关属性(如电话号码),找出最小属性集。
启发式方法:逐步向前选择:从空属性集开始,每次选一个最优的,直到无法选出或者达到阈值。
向后删除:从全集开始,每次删一个最差的属性,直到无法删除或者满足阈值。
判定树归纳:利用决策树进行归纳学习,选择树节点上的属性。
基于统计的规约:统计显著性检验等。
属性,特征产生:产生新的属性,而可以比原始属性更好表示重要信息。
主成分分析(PCA)
利用降维思想,把多个指标转化为m个指标,实现降维。通过旋转坐标轴,使得数据在一个新的坐标系里,在一个轴上离散化程度更高,从而删去另一个维度。未必是三维降到二维。主轴总长度占到所有总长度85%以上。
主成分分析就是要确定原变量在主成分上的相关系数。每个主成分分别是一切线性组合中方差最大的,从大到小排序。
解关于相关系数矩阵的特征方程,求出特征值,从大到小排序,然后求出特征向量,要求特征向量模为1,此时特征值就可以用来表示主成分对整体的贡献率。