大数据基础一(Foundation of Big Data Part One)

1.Hadoop
广义: 以apache hadoop软件为主的生态圈(hive sqoop spark flink…)
狭义: apache hadoop软件
查询资料到以下官网
hadoop.apache.org
hive.apache.org
spark.apache.org

2.hadoop软件版本的选取:
1.x 版本太旧,企业不用
2.x 主流使用
3.x 很少敢用,很多坑,只能自己踩
但是CDH(www.cloudera.com) 版本兼容统一的部署管理,很受企业欢迎,HDP拿apache hadoop源代码(开源免费),封装成自己的hadoop版本,且自己打补丁。

3.Hadoop软件
hdfs: 存储,分布式计算
mapreduce:计算,java编码,企业不用(开发难度大,代码量大,速度慢)
yarn:资源(CPU memory)和作业调度

本课程运用:hadoop-2.6.0-cdh5.7.0

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据科学基础是用于理解和应用数据科学原理和技术的基本概念和知识。它涵盖了数据收集、清洗、解析和可视化等方面的基础知识。 首先,数据科学基础涉及到数据收集。这包括识别需要的数据和收集这些数据的方法。数据收集可以通过调查问卷、实验、传感器和日志等多种方式进行。数据科学基础让我们了解如何选择和设计合适的数据收集方法。 其次,数据科学基础还包括数据清洗。数据收集后,需要对数据进行清洗以消除错误、重复、缺失和异常值。数据清洗是数据分析的基础,通过清洗可以提高数据的准确性和完整性。 数据解析也是数据科学基础中的重要内容。数据解析涉及将数据转换为有意义的信息。这涉及到应用统计学和机器学习等技术,以识别数据中的模式和趋势。通过数据解析,我们可以从数据中获取关键见解和结论。 最后,数据可视化也是数据科学基础的一部分。数据可视化是通过使用图表、图形和图像等方式将数据转化为可视化的形式。数据可视化可以更好地传达数据的含义和趋势,帮助人们更好地理解和利用数据。 综上所述,数据科学基础是数据科学领域的核心基础知识和技能。它涵盖了数据收集、清洗、解析和可视化等方面的基本概念和技术。通过学习和掌握数据科学基础,我们能够更好地处理和应用数据,从而为各行各业的决策和创新提供支持。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值