大数据作业2(2020.09.27)

大数据作业2(2020.09.27)
1、机器学习和数据挖掘的区别?
数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据,去噪和样本平衡很重要。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等,还需要掌握领域专业知识;而机器学习是从数据中获取经验进而改善系统性能的一类重要方法,“学习”的意义就是求解最逼近真相的经验,理论基础主要是统计学。数据挖掘经常需要采用机器学习方法,但目前机器学习主要是想实现某种程度的人工智能。数据挖掘侧重描述应用,机器学习侧重描述方法。
2、大数据计算系统的分类特点?
大数据计算系统分类有:
数据存储系统:数据采集、清洗抽取与建模(异构转为标准化,键值对)、数据存储;
数据建模:概念模型(基于需求)、逻辑模型(数据实体细节)、物理模型(数据存储实现);
数据存储结构:数据库->逻辑存储(表达相互关系),分布式文件系统->物理存储(在存储介质上的数据排列方式);
数据处理系统:用计算模型采用计算架针对算法设计计算流程;
数据应用系统:各类大数据应用、可视化,针对具体行业和不同的客户需求。
3、大数据处理的基本流程?
1.1 数据采集
数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过使用Flume等工具把数据采集到指定位置的这个过程叫做数据采集。
关于具体含义要结合语境具体分析,明白语境中具体含义即可。
1.2 数据预处理
通过mapreduce程序对采集到的原始日志数据进行预处理,比如清洗,格式整理,滤除脏数据等,并且梳理成点击流模型数据。
1.3 数据入库
将预处理之后的数据导入到HIVE仓库中相应的库和表中。
1.4 数据分析
项目的核心内容,即根据需求开发ETL分析语句,得出各种统计结果。
1.5 数据展现
将分析所得数据进行数据可视化,一般通过图表进行展示。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值