大数据挖掘
文章平均质量分 78
唐-import-某人
放笔记
展开
-
hadoop 适配方案
一.hadoop2.7.7版本适配方案(已验证)软件版本hadoop2.7.7jdk8u221hive2.3.8HBase2.1.0Spark3.1.2zookeep3.6.3二.hadoop3.2.x版本适配方案软件版本所使用hadoop3.2.x3.0.1jdk88u271hive3.1.23.1.2HBase2.3.x2.3.6Spark2.2.2+3.0.0原创 2021-09-13 23:57:15 · 575 阅读 · 0 评论 -
四.数据关联性分析
数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例一.基本概念通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度运动器的历史购买数据| TID | 网球拍 | 网球 | 运动鞋 | 羽毛球 || — | — | — | — | — || 1 | 1 | 1 | 1 | 0 || 2 | 1 | 1 | 0 | 0 || 3 | 1 | 0 | 0 | 0 || 4 | 1 | 0 | 1原创 2021-08-03 16:52:02 · 4241 阅读 · 0 评论 -
三.数据处理
一.数据探查1.了解数据的结构分布和特征2.了解数据的特殊值二.数据清洗1.缺失处理2.异常处理3.结构化清洗4.重复清洗5.冗余清洗三.数据整合1.通用合并2.内链接(主键)3.外连接(主键)4.去重连接四.数据归约1.维归约减少样本的属性个数(1)小波变换(2)主成分分析(3)属性子集选择2.数量归约替换原数据集3.数据压缩...原创 2021-08-03 16:51:31 · 68 阅读 · 0 评论 -
二.数据认知
一.数据分析定义和流程1.理解和描述数据分析的问题(1)理解待分析的问题(背景+目标+标准)(2)考察待分析问题的形式(资源需求+评估成本/收益)(3)确定待分析问题的数据分析模型(4)制定相应的分析步骤2.数据获取与准备(1)数据库关系型数据库事务型数据库多媒体型数据库遗留数据库(2)数据仓库数据仓库:对实时数据进行日常操作(3)文件加载清洗集成3.数据质量评估- (1)准确性: 数据的异常或错误情况- (2)完整性: 数据是否缺失- (原创 2021-08-03 16:51:06 · 965 阅读 · 0 评论 -
一.大数据分析与处理概论
背景: 云计算+大数据时代政策: 突破大数据挖掘技术一.什么是大数据大数据: 人机交互的互联式计算系统(人生产资源,消耗资源,成为资源)1.政界定义推动信息计算能力实现:按需供给信息技术和数据资源充分利用2.学界定义基于互联网的相关的服务增加 使用和交互的模式虚拟化的资源服务3.大数据具体特征稠密与稀疏共存: 局部稠密与全局稀疏冗余与缺失并存: 大量冗余与局部缺失显式与隐式均有: 大量显式与丰富隐式静态与动态互视: 动态演进与静态关联多元与异原创 2021-08-03 16:49:21 · 522 阅读 · 0 评论