1.大数据的概念
- 什么是数据?
世界的本质是数据。
- 大数据的定义
大数据(big data),是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,因此需要新处 理模式,该处理模式就是大数据。
- 大数据解决的问题
大数据主要处理海量数据的存储与运算
- 大数据处理的数据量有多大?
目前的大数据应用,数据量主要集中在PB/EB级别
单位 | 1Byte | 1K(千) | 1M (兆) | 1G(吉) | 1T(太) | 1P(拍) | 1E(艾) | 1Z(泽) | 1Y(尧) | 1B(布) | 1N(诺) | 1D | ||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
等价关系 | 8bit | 1024Byte | 1024K | 1024K | 1024G | 1024T | 1024P | 1024E | 1024Z | 1024Y | 1024B | 1024N |
2.大数据的特点
- 大(Volume): 体积大
- 多(Variety): 数据种类和来源多
- 值(Value): 低价值密度
- 快(Velocity): 增长速度快,处理速度快,获取速度快
- 信(Veracity): 结果准确,可以信赖的
3.大数据的应用场景
大数据的应用场景非常广泛,以下是一些常见的应用场景:
-
个性化推荐:通过分析用户的历史行为和偏好,为用户提供个性化的推荐服务。
-
舆情监控:通过采集和分析社交网络、微博、新闻等各种互联网信息,对舆情进行实时监控和分析。
-
金融风控:通过挖掘交易数据和用户行为数据,对风险进行预测和控制,确保交易安全。
-
医疗健康:通过分析大量的医疗数据,提高疾病预测和诊断准确度,辅助医生进行治疗。
-
智慧城市:通过大数据技术,对城市的交通、环境、水资源等方面进行监控和管理,实现智慧城市的建设。
-
电商营销:通过分析用户行为数据,精准推送商品和促销活动,提高营销效果。
-
物流管理:通过大数据技术,提高物流效率和准确度,优化物流路线和资源配置。
-
智能制造:通过分析生产过程中的大量数据,提高生产效率和质量,实现智能制造。
-
人力资源管理:通过分析员工数据和职业生涯轨迹,提供智能化招聘、培训和人才管理服务。
-
政务管理:通过大数据技术,对政府各项政策和公共服务进行监控和管理,提升政务效率和服务质量。
4.大数据分析业务步骤
通常,数据的分析主要分为六布:
明确分析目的和思路——>数据收集——>数据处理——>数据分析——>数据展现——>撰写报告
明确分析目的和思路:把分析目的分解成若干个不同的分析要点,确保分析框架的体系化和逻辑性。
数据收集:一般数据来源为数据库、第三方数据统计工具、专业的调研机构的统计年鉴或报告、市场调查。
数据处理:数据处理主要包括数据清洗、数据转化、数据提取、数据计算等,将原始数据加工成为分析需要的直观数据。
数据分析:数据分析是指用适当的分析方法及工具,分析处理过的数据,提取有价值的信息的过程。
数据展现:一般能用图说明问题的就不用表格,能用表格说明问题的就不要用文字。
撰写报告:数据分析报告其实是对整个数据分析过程的一个总结与呈现。用于决策者参考做出决策。
5.计算机的组成
计算机由软件和硬件两个方面组成。
软件包括操作系统、应用程序和编程语言等。操作系统是计算机的核心软件,它控制和管理计算机的各种硬件资源,提供用户与计算机硬件之间的接口。应用程序是在操作系统之上运行的软件,实现计算机的各种功能,如文字处理、图像处理、数据库管理等。编程语言是一种计算机语言,用于编写软件程序。
硬件包括中央处理器、存储器、输入输出设备和通信设备等。中央处理器是计算机的核心硬件部件,负责执行各种指令。存储器包括主存储器和辅助存储器,主存储器用于存储正在执行的程序和数据,辅助存储器用于长期存储数据和程序。输入输出设备用于与计算机进行交互,如键盘、鼠标、显示器、打印机等。通信设备用于计算机之间或计算机与网络之间的数据传输,如网卡、光纤等。
操作系统主要作用是承上启下,是硬件和应用程序之间的桥梁。
6.编程语言
编程语言: 人和计算机交互一种语言
编程语言历史: 低级语言 -> 高级语言 -> 面向对象时代(java和python)
注意: sql是一种特殊的编程语言