信息技术在智能化、系统化、微型化、云端化的基础上不断融合创新,促进了物联网、云计算、大数据、区块链、人工智能、虚拟现实等新一代信息技术的诞生。新一代信息技术与信息资源充分开发利用形成的新模式、新业态等,是信息化发展的主要趋势,也是信息系统集成领域未来的重要业务范畴。
定义
大数据(Big Data)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
主要特征
数据海量:TB级别跃升到PB、EB级别
数据类型多样:结构化和非结构化数据,非结构化包括网络日志、音频、视频、图片、地理位置信息等
数据价值密度低:数据价值密度的高低与数据总量的大小成反比
数据处理速度快:是大数据区分于传统数据挖掘最显著的特征
关键技术
大数据获取技术、分布式数据处理技术、大数据管理技术、大数据应用和服务技术
大数据获取技术
数据采集技术
分布式爬取、分布式高速高可靠性数据采集、高速全网数据映像技术、DPI或DFI等宽带管理技术。
数据整合技术
多源多模态信息集成模型、异构数据智能转换模型、异构数据集成的智能模式抽取和模式匹配算法、自动容错映射和转换模型及算法、整合信息的正确性验证方法、整合信息的可用性评估方法。
数据清洗技术
数据正确性语义模型、关联模型和数据约束规则、数据错误模型和错误识别框架、针对不同错误类型的自动检测和修复算法、错误检测与修复结果的评估模型和评估方法等。
分布式处理技术
主流分布式计算系统有Hadoop、Spark和Storm。
Hadoop常用于离线的复杂的大数据处理;Spark常用于离线的快速的大数据处理;Storm常用于在线的实时的大数据处理。
大数据管理技术
大数据存储、大数据协同和安全隐私
大数据应用和服务技术
分析应用技术、可视化技术
应用
互联网行业、政府公共数据领域、金融领域、工业领域、社会民生领域