大数据技术及应用教程
在介绍大数据技术的理论基础上对大数据分析最新前沿技术做全面详细介绍
阿默mini
不积跬步,无以至千里
展开
-
读书笔记之大数据隐私与安全
1、大数据所面临的的安全问题:①速度方面的问题:传统的关系型数据库管理系统一般都采用集中式的存储和处理,没有采用分布式架构,这种配置在面对不断增长的数据量和动态数据使用场景时在速度响应方面捉襟见肘,面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降;②种类及架构问题:随着物联网、互联网以及通信网络的飞速发展,数据的格式及种类在不断变化和发展,比如在智能交通领域,所涉及的数据包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的、不同种原创 2020-07-10 16:47:51 · 1019 阅读 · 0 评论 -
读书笔记之大数据分析
1、大数据分析的数据类型:①交易数据:大数据平台能够获取时间跨度更大、更海量的结构化交易数据,可以对更广泛的交易数据类型进行分析,不仅包括POS或电子商务购物数据,还包括交易行为数据;②人为数据:非结构数据广泛存在于电子邮件、文档、图片、音频、视频,以及通过博客、维基,尤其是社交媒体产生的数据流,为使用文本分析功能提供了丰富的数据源;③移动数据:移动设备上的APP能追踪和沟通无数事件,涉及范围从APP内的交易数据到个人信息资料或状态报告事件;④机器和传感器数据:包括功能设备创建或生成的数据,例如智能原创 2020-07-09 17:18:59 · 788 阅读 · 0 评论 -
读书笔记之大数据交互
1、结构化查询语言(Structured Query Language):一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统,同时.sql也是数据库脚本文件的扩展名。SQL不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,具有不同底层结构的不同数据库系统可以使用相同的SQL作为数据输入和管理的接口。SQL可以细分为以下六个部分:数据查询语言DQL——语句也称为“数据检索语句”,用于从表中获得数据,确定数据怎样在应用程序给出。常用保留原创 2020-07-06 16:07:28 · 762 阅读 · 0 评论 -
读书笔记之大数据计算模式
1、大数据计算模式:根据大数据的不同特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,传统的并行计算方法主要从体系结构和编程语言层面定义了一些较为底层的并行计算抽象和模型,但由于大数据处理问题具有很多高层的数据特征和计算特征,大数据处理需要更多地结合这些高层特征考虑更高层次的计算模式。2、数据计算的分类:①离线批处理:Hadoop平台主要是面向离线批处理应用的,是一个能够对大量数据进行分布式处理的软件框架,而且是一种可靠的、高效的、可伸缩的方式进行处理,通过数据分块及自恢复原创 2020-07-01 17:58:00 · 2502 阅读 · 0 评论 -
读书笔记之大数据存储
1、传统数据存储介质分为磁带、磁盘和光盘三大类,由三种介质分别构成磁带库、磁盘阵列、光盘库三种主要存储设备,其中磁盘设备由于存取速度快、数据查询方便、简单易用、安全的RAID技术等占据一级存储市场的主要份额,磁带设备则以技术成熟、价格低廉占据二级存储市场的重要地位,光盘设备同时具有二者的特点,因此广泛应用。①磁带库存储:磁带存储技术已经经过了多年的发展,具有稳定、高可用、低成本等诸多优点,可以通过脱机来避免在数据备份、迁移和保护等应用中数据丢失的可能性;②光盘海量存储:光盘存储技术是一种光学信息存储技术原创 2020-06-26 10:35:32 · 1240 阅读 · 0 评论 -
读书笔记之大数据采集与预处理
1、数据采集过程涉及数据抽取、数据的清洗转换、数据的加载三个过程(即ETL:Extract、Transform、Load),数据采集的ETL工具负责将分布的、异构数据源中的不同种类和结构的数据抽取到临时中间层后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统如数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。2、企业数据总线有效地创建了一层数据访问抽象层,使业务功能避开企业数据访问的细节,业务组件只需包含服务功能组件(用于实现现有服务功能)和数据访问组件(通过使用企业数据总线的方式),使用这原创 2020-06-21 11:17:40 · 3643 阅读 · 0 评论 -
读书笔记之云计算平台
1、云计算:是分布式计算技术的一种,通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器组成的庞大系统经搜寻、计算分析之后将处理结果传回给用户。核心思想是将大量用网络连接的计算资源统一管理和调度,构成一个计算资源池向客户按需服务。2、云计算的特点:①数据安全可靠:云计算提供了最可靠、最安全的数据存储中心,用户无需担心数据丢失、病毒入侵等麻烦,严格的权限管理策略可以帮助我们与指定的人放心地共享数据;②客户端需求低:云计算对客户端的设备要求最低,使用起来也最方便,可以在浏览器中直接编原创 2020-06-17 16:02:30 · 780 阅读 · 0 评论 -
读书笔记之大数据基础
1、数据:对客观事物的逻辑归纳,用符号、字母等方式对客观事物进行直观描述,是进行各种统计、计算、科研或技术设计的数值,也是表达知识的字符集合,是一种信息的表现形式。2、数据的最小单位是bit,8bit=1Byte,单位顺序依次是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB3、信息与数据不可分割,数据是信息的表达,信息是数据的内涵。4、①结构化数据:存储在结构化数据库中的数据,可以用二维表结构来逻辑表达实现的数据,信息经过分析后可分解成多个互相关联的组成部分,各组原创 2020-06-08 16:04:14 · 471 阅读 · 0 评论