课程说明
项 | 内容 |
---|---|
课程类型 | 视屏课程 |
内容类型 | 通用 |
课程名称 | 大数据行业概述及课程介绍 |
地址 | https://edu.csdn.net/course/play/8090 |
时长 | 30 |
费用 | 免费 |
课程目录和概要
一.对18年趋势的预测(课程比较早,但感觉对18年的预测,也可以用在19年下半年上)
- 算法当道:人工智能 + 大数据,1+1>2
- 数据科学兴起:分工更细更成熟,对数据质量的要求,让数据治理越来越重要,多数据源共通融合使用
- 数据智能化成为趋势:预测和决策辅助成为热门应用方向,知识图谱和数据语义化成为趋势
- 数据安全逐渐成为企业关注重点
二.大数据热门应用领域
- 医疗、金融、物联网、智慧城市、互联网
三.Hadoop生态
- 数据采集:flume(日志)、sqoop(关系型数据库)
- 存储:hdfs、Hbase
- 管理:yarn、zookeeper
- 计算:spark,mapReduc
- 数据分析:hive、drill、pig
- 机器学习:spark MLlib、Mahout
- 调度:oozie
- 检索:solr
四.spark生态
- spark sql(数据分析)
- spark streaming(流处理)
- MLlib(机器学习)
- GraphX(图像处理)
五.es生态(擅长数据检索)
- elasticsearch、kibana、logstash、beats、x-pack、cloud/ece
- 商业插件:logging、metrics、site search、security、apm
六.BI软件(可视化)
- QlikView、tableau、Power BI、spotfire
七.大数据相关的工作内容
- 建设数据仓库,ETL建模
- 收集、分析数据
- 监测监控数据质量
- 平台借口开发与维护
- 优化spark/hadoop
学习心得
我觉得本课最有价值的就是Hadoop、Spark、ES等生态的讲解,虽然只是提了几个名字,但也让我知道了大数据有那些东西组成,这些东西大体是做什么的,相互之间关系是怎样的。能在脑子里有一个模糊的框架,就像地图一样。以后碰到一个,就知道应该在哪里,大概如何用,与此相关的还有那些。
Hadoop生态包含了大数据所需的所有功能,从数据采集、数据存储、数据管理、数据加工、任务调度、数据分析、可视化、机器学习、流计算等等,从收集到最终应用应有尽有。我理解之所以还有大数据其他生态或组件,应该是因为Hadoop大而全,但是不够专精。所以就给了其他工具的生存空间。这也让大数据的学习变得更复杂,尤其是刚上手,根本不知道哪是哪。这个也能做,那个也能做,偏偏很多时候找不到概括的资料说明各自优劣,很容易让人生出挫败感。
刚开始多看些概括性的东西,不求甚解,有个印象。然后找个突破口钻进去,随着了解的深入,慢慢绘制自己心中的大数据地图,应该是比较有效的一种学习方式。