学习_002_大数据行业概述及课程介绍

该课程介绍了18年大数据趋势,强调了人工智能与大数据的结合,数据科学的兴起,以及数据安全的重要性。课程涵盖了大数据热门应用领域,如医疗、金融等,并详细讲解了Hadoop、Spark和ES生态,包括其主要组件和功能。学习心得分享了构建大数据知识框架的建议,认为初学者应先了解整体再深入学习。
摘要由CSDN通过智能技术生成
课程说明
内容
课程类型视屏课程
内容类型通用
课程名称大数据行业概述及课程介绍
地址https://edu.csdn.net/course/play/8090
时长30
费用免费
课程目录和概要

一.对18年趋势的预测(课程比较早,但感觉对18年的预测,也可以用在19年下半年上)

  1. 算法当道:人工智能 + 大数据,1+1>2
  2. 数据科学兴起:分工更细更成熟,对数据质量的要求,让数据治理越来越重要,多数据源共通融合使用
  3. 数据智能化成为趋势:预测和决策辅助成为热门应用方向,知识图谱和数据语义化成为趋势
  4. 数据安全逐渐成为企业关注重点

二.大数据热门应用领域

  1. 医疗、金融、物联网、智慧城市、互联网

三.Hadoop生态

  1. 数据采集:flume(日志)、sqoop(关系型数据库)
  2. 存储:hdfs、Hbase
  3. 管理:yarn、zookeeper
  4. 计算:spark,mapReduc
  5. 数据分析:hive、drill、pig
  6. 机器学习:spark MLlib、Mahout
  7. 调度:oozie
  8. 检索:solr

四.spark生态

  1. spark sql(数据分析)
  2. spark streaming(流处理)
  3. MLlib(机器学习)
  4. GraphX(图像处理)

五.es生态(擅长数据检索)

  1. elasticsearch、kibana、logstash、beats、x-pack、cloud/ece
  2. 商业插件:logging、metrics、site search、security、apm

六.BI软件(可视化)

  1. QlikView、tableau、Power BI、spotfire

七.大数据相关的工作内容

  1. 建设数据仓库,ETL建模
  2. 收集、分析数据
  3. 监测监控数据质量
  4. 平台借口开发与维护
  5. 优化spark/hadoop
学习心得

我觉得本课最有价值的就是Hadoop、Spark、ES等生态的讲解,虽然只是提了几个名字,但也让我知道了大数据有那些东西组成,这些东西大体是做什么的,相互之间关系是怎样的。能在脑子里有一个模糊的框架,就像地图一样。以后碰到一个,就知道应该在哪里,大概如何用,与此相关的还有那些。
Hadoop生态包含了大数据所需的所有功能,从数据采集、数据存储、数据管理、数据加工、任务调度、数据分析、可视化、机器学习、流计算等等,从收集到最终应用应有尽有。我理解之所以还有大数据其他生态或组件,应该是因为Hadoop大而全,但是不够专精。所以就给了其他工具的生存空间。这也让大数据的学习变得更复杂,尤其是刚上手,根本不知道哪是哪。这个也能做,那个也能做,偏偏很多时候找不到概括的资料说明各自优劣,很容易让人生出挫败感。
刚开始多看些概括性的东西,不求甚解,有个印象。然后找个突破口钻进去,随着了解的深入,慢慢绘制自己心中的大数据地图,应该是比较有效的一种学习方式。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值