初识大数据
大数据导论
大数据英文单词:big data
大数据概念
数据量不断增长的过程中,常规软件无法处理的数据集合,此时大数据应运而生,一个全新的数据处理模块。
数据单位
单位 | 等价关系:1024=2^10 ( 2 的10次方) |
---|---|
1B(Byte字节) | 8bit |
1KB (Kilobyte 千字节) | 1024B |
1MB (Megabyte 兆字节简称“兆”) | 1024KB |
1GB (Gigabyte 吉字节 又称“千兆”) | 1024MB |
1TB (Trillionbyte 万亿字节 太字节) | 1024GB |
1PB(Petabyte千万亿字节 拍字节) | 1024TB |
1EB(Exabyte 百亿亿字节 艾字节) | 1024PB |
1ZB (Zettabyte十万亿亿字节 泽字节) | 1024EB |
1YB (Yottabyte 一亿亿亿字节 尧字节) | 1024ZB |
1BB (Brontobyte 一千亿亿亿字节) | 1024YB |
大数据的特点
大、多、值、快、信(V5)
Volume(大量):数据规模很大,通常是GB、TB级别,甚至是PB级别。
Variety(多样):数据的类型不是唯一的,是多种多样的。
Value(低价值密度):单条数据的价值低,但总体的数据价值高。
Velocity(高速):数据的增长速度快。
Veracity(真实性):数据来源于现实世界,数据是真实有效值得信任的,能反映真实情况。
大数据应用场景
大数据解决的问题: 海量数据的存储 海量数据的计算 海量数据的迁移
大数据分析步骤
张文霖提出数据分析六步曲一说
1. 明确分析的目的和思路: 把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性。
2. 数据收集: 一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查。
3. 数据处理:(E抽取T转换L加载)数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据。
4. 数据分析: 数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程。
5. 数据可视化: 一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
6. 撰写报告: 数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策。
大数据学习路线
python基础
mysql数据库
linux操作系统
hadoop&hive&zookeeper等技术栈
独自完成一些相关项目
相关软件的安装
PyCharm(需要安装Python解释器)、DataGrip、MySQL(新手可以用phpstudy_pro安装使用)、Redis等。
软件安装注意事项
1、安装路径中尽量不要出现中文、空格以及特殊字符。
2、win系统尽量不要安装在C盘目录下。
3、所有开发软件建议安装在同一路径下。(不仅仅是开发软件,所有软件都应该做好软件安装的分类,对于刚买计算机的同学来说可能没多少感觉,但用一段时间就会很后悔为什么当初没有好好分类了)
4、像jdk、python这类软件,安装时修改路径后不会自动添加当前软件命名的下一级文件夹,需要手动补充,否则会使该选择的文件夹非常混乱。
软件卸载的注意事项
软件安装好后可以试着卸载再次安装,工作中大多数都是会在新的电脑上进行作业,所以软件安装和配置这一块还是很重要的。
1、不要直接去安装路径下删除对应软件的文件夹,因为安装的时候系统在注册表中会有相应的增加条目,而单纯删除安装软件的文件夹并不会清除注册表中增加的文件,从而有可能会影响下一次的安装。(如显示安装失败,您已安装该软件!)
2、可以去控制面板卸载:不知道位置的可以按win + R 打开命令运行框、输入control打开控制面板,进入卸载程序。
3、卸载完后可以去安装路径下查看是否清理干净,如果没有,可以手动删除。
计算机的组成
计算机由硬件、软件组成。
硬件
1、冯诺依曼体系结构:由输出设备、输入设备、运算器、控制器(与运算器共称为CPU)、内外存储器。
2、裸机:没有操作系统的计算机。
软件
1、系统软件
操作系统:window操作系统、mac操作系统、Linux操作系统。
承上启下:是应用软件和硬件的桥梁。
2、应用软件
如QQ、微信、上述的开发软件和一些列被用户直接操作的应用程序等。
编程语言
生活中的语言
人与人之间沟通所用到的一种语言。
编程语言
人与计算机之间沟通所用到的一种特殊语言。
编程语言发展史
低级语言=>高级语言=>面向对象时代开启(java&python)
世界公认的第一台通用电子计算机,是1946年美国制造的ENIAC(埃尼阿克),它是“电子数字积分计算机”英文首字母的缩写(Electronic Numerical Integrator And Computer)。
从1959年开始,编程语言的时代开始了。
在1960年代,有Algol、Lisp、Basic等语言。
70年代有Pascal、C和Smalltalk语言等。
80年代有C++、Objective-C(扩充C的面向对象语言)等。
90年代有Python、Java和Ruby等语言。
在近代,Swift、C#和Go在慢慢崛起。
python和Java解释器的区别:
python:解释型语言,边解释边执行。
Java:编译型语言,先编译再运行。(一次编译,多次运行)