一、大数据时代究竟改变了什么?
改变的是思维方式
1、数据的重要性
- 数据资源–>数据资产(增值)
2、方法论
- 基于知识的理论完美主义–>基于数据的历史经验主义
3、数据分析
- 统计学(抽样)–>数据科学(大数据)
- 数据科学家(大数据+算法+更加丰富的业务知识)
4、计算智能
- 复杂算法–>简单算法(MapReduce)
5、决策方面
- 基于目标决策–>基于数据决策
6、业务方面
- 基于业务的数据化–>基于数据的业务化
7、产业结合
- 以战略为中心–>以数据为中心
二、大数据的4V特征
1、数据量大
- TB-PB-ZB
- HDFS分布式文件系统
2、数据种类多
- 结构化数据:以mysql数据库为主的存储和处理
- 非结构化数据:图像、音频等;HDFS、MR、Hive
- 半结构化数据:XML形式、HTML形式;HDFS、MR、Hive、Spark
3、速度快
- 数据的增长速度快:TB-PB-ZB;HDFS
- 数据的处理速度快:MR-HIVE-PIG-Impala(离线);Spark-Flink(实时)
4、价值密度低
- 价值密度=有价值数据/all
- 价值高
- 机器学习算法解决的问题
三、大数据项目架构—以电信日志分析为例
项目名称:电信日志分析系统
项目描述:
电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户的上网产生的访问日志和安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词过滤、违规违法用户的处理等,整个项目的数据量在1T-20T左右,集群数量在10台到100台
项目架构分析:
- 数据采集层:ftp,socket方式
- 数据存储层:HDFS
- 数据分析层:MR/HIVE/IMPALA/SPARK
- 机器学习层: