大数据导论
1.大数据概念
大数据(bigdata),顾名思义,指的是无法在常规软件处理的数据集合,通过大数据专业的相关领域进行解决。
大数据解决的问题:海量数据的存储、海量数据的计算、海量数据的迁移。
大数据应用场景:
为生活赋能,大数据人工智能时代,数字化时代
2.涉及的数据单位
3.大数据特点
简单来说:大、多、值、快、信
大:体积大
多:数据种类和来源多
值:低价值密度(在海量的数据中选出有价值的少量信息)
快:速度增长快,处理速度快,获取速度快
信:结果准确可靠,可信赖
4.大数据分析步骤
张文霖在《数据分析六步曲》说:
明确分析的目的和思路: 把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性。
数据收集:一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查。
数据处理:(E抽取T转换L加载)数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据。
数据分析:数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程。
数据可视化:通过一些BI工具对数据进行可视化展现。注意:一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
撰写报告: 数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策。
计算机组成
1.计算机硬件:
硬件由输入设备、输出设备、运算器、控制器、以及内外存储器组成(遵循冯诺依曼体系结构)
2.计算机软件:
软件由系统软件(操作系统)以及应用软件(日常计算机操作的App)组成
操作系统的作用:承上启下,连接硬件与软件的一个桥梁。
常见的操作系统有:Windows操作系统、Mac操作系统、Linux操作系统
编程语言
概述:人与计算机沟通的一种方式
编程语言发展史:低级语言–>高级语言–>面向对象时代(Java和Python)
其中:Python是解释型语言,边解释边执行
Java是编译型语言,先编译再运行(一次编译,多次运行)
注意:sql是一种特殊的编程语言