今天了解了大数据的基本概念和在生活以及工作中的运用场景,这变文章作为这个大数据系列的开篇,之后的学习计划中包含Linux操作系统,mysql,python,java以及大数据框架(Hadoop,Hive,Spark,Flink)的学习,加油小王
一.定义
-
定义:是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处 理模式,该处理模式就是大数据
-
广义:现在所生活的数字化时代,人工智能的时代背后的数据支撑就是大数据
-
狭义:解决海量数据存储,传输,计算问题的技术栈
[Hadoop(hdfs存储,mapreduce计算) sqoop,flume,datax传输]目前的大数据应用,数据量主要集中在PB/EB级别
二.特点
数据量大,数量的种类和来源复杂多样,增长速度也快,但是有价值的很少,需要从海量数据中准确获取值得信赖的有价值的数据
三.大数据分析的业务步骤
因为目前还没琢磨透这个,没有自己的一套分析步骤,就先把张文霖的《数据分析六步曲》中典型的数据分析步骤记录下来吧
1.明确分析的目的思路
把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性
2.数据收集
一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查
3.数据处理
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据
4.数据分析
数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程
5.数据展现
一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字
6.撰写报告
数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策