大数据作业2（2020.09.27）

最新推荐文章于 2023-12-06 22:07:39 发布

cx2333

最新推荐文章于 2023-12-06 22:07:39 发布

阅读量1k

点赞数 1

本文链接：https://blog.csdn.net/cx2333/article/details/108839017

版权

大数据作业2（2020.09.27）
1、机器学习和数据挖掘的区别？
数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据，去噪和样本平衡很重要。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等，还需要掌握领域专业知识；而机器学习是从数据中获取经验进而改善系统性能的一类重要方法，“学习”的意义就是求解最逼近真相的经验，理论基础主要是统计学。数据挖掘经常需要采用机器学习方法，但目前机器学习主要是想实现某种程度的人工智能。数据挖掘侧重描述应用，机器学习侧重描述方法。
2、大数据计算系统的分类特点？
大数据计算系统分类有：
数据存储系统：数据采集、清洗抽取与建模（异构转为标准化，键值对）、数据存储；
数据建模：概念模型（基于需求）、逻辑模型（数据实体细节）、物理模型（数据存储实现）；
数据存储结构：数据库->逻辑存储（表达相互关系），分布式文件系统->物理存储（在存储介质上的数据排列方式）；
数据处理系统：用计算模型采用计算架针对算法设计计算流程；
数据应用系统：各类大数据应用、可视化，针对具体行业和不同的客户需求。
3、大数据处理的基本流程？
1.1 数据采集
数据采集概念，目前行业会有两种解释：一是数据从无到有的过程（web服务器打印的日志、自定义采集的日志等）叫做数据采集；另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析，明白语境中具体含义即可。
1.2 数据预处理
通过mapreduce程序对采集到的原始日志数据进行预处理，比如清洗，格式整理，滤除脏数据等，并且梳理成点击流模型数据。
1.3 数据入库
将预处理之后的数据导入到HIVE仓库中相应的库和表中。
1.4 数据分析
项目的核心内容，即根据需求开发ETL分析语句，得出各种统计结果。
1.5 数据展现
将分析所得数据进行数据可视化，一般通过图表进行展示。