PD大数据课程介绍
01 大数据课程导论
1-大数据概念
大数据的普通认知:bigdata,无法用常规软件处理的数据集合,需要一种新的模式(分布式)去处理
大数据的核心思想:分而治之
大数据解决的问题:
海量数据的存储
海量数据的计算
海量数据的迁移
海量数据的查询
大数据的应用场景:为生活赋能/大数据人工智能时代/数字化时代
2-数据量单位
单位 | 转换关系 |
---|---|
1bit(比特) | 一个0或者是一个1 |
1Byte(字节) | 8bit |
1KB | 1024Byte |
1MB | 1024KB |
1GB | 1024MB |
1TB | 1024GB |
1PB | 1024TB |
1EB | 1024PB |
3-大数据特点
大:体量大(T/P)
多:数据种类和来源多,结构化和非结构化
值:低价值密度
快:增长速度快,处理速度快,获取速度快
信:结果准确,可以依赖
4-大数据处理步骤
明确分析的目的和思路:把分析的目的分解成若干个不同的分析要点
数据收集:一般数据来源为数据库、第三方数据统计工具、文件数据等
数据处理:(E抽取T转换L加载)主要包含数据清洗、数据转化、数据提取、数据计算等
数据分析:提取为数据有价值的信息的过程
数据可视化:一般能用图说明问题的不用表格,能用表格说明问题的就不要用文字
撰写报告:数据分析报告作为结论总结
02 计算机基础知识
1-计算机组成
计算机(computer)俗称电脑,是现代一种用于高速计算的电子机器,可以进行数值计算,又可以进行逻辑判断,还具有存储记忆功能。计算机由硬件系统和软件系统两部分组成。
1-1 硬件系统
计算机硬件主要由CPU(运算器和控制器)、存储设备、输入输出设备组成
从ENIAC(世界上第一台计算机)到当前最先进的计算机,硬件系统都是采用的冯·诺依曼体系结构
1-2 软件系统
操作系统:windows macos linux 麒麟系统操作
应用软件:qq 360
2-二进制转换
二进制(Binary)
-
基数:2
-
数码:0 和 1
-
表示方法:使用0和1的组合来表示数值,例如:1010_2,其中下标_2表示二进制
十进制(Decimal)
-
基数:10
-
数码:0 1 2 3 4 5 6 7 8 9
-
表示方法:日常使用的数制,例如:123_10或者直接写123(默认十进制)
十六进制(Hex)
-
基数:16
-
数码:0-9和A-F(A=10 B=11 C=12 D=13 E=14 F=15)
-
表示方法:使用0-9和A-F的组合来表示数值,例如:1A3F_16表示十六进制数
转换方法:
-
二进制转换十进制:
对于二进制数(b值取0或者1):
其十进制表示为:
例如:10101转换为十进制为21
-
十进制转换二进制:
不断除以2,取余数,直到商为0,余数逆序排列
练习题:
1-将二进制1011_2转换为十进制数 1 + 2 + 8 = 11
2-将十进制数29转换为二进制数 1 1 1 0 1
3-将二进制数10000000_2转换为十进制数 128