大数据基础-大数据导论

最新推荐文章于 2024-08-08 21:35:45 发布

Data_Designer

最新推荐文章于 2024-08-08 21:35:45 发布

阅读量4k

点赞数 2

分类专栏：编码之外文章标签：大数据

本文链接：https://blog.csdn.net/weixin_40539952/article/details/104696998

版权

编码之外专栏收录该内容

19 篇文章 0 订阅

订阅专栏

概述
信息是数据的有序排列而成，数据是构成信息的基本单位
数据的类型：文本图片音频视频
数据组织形式：文件数据库
常见数据库（层次数据库，网状数据库，关系数据库【主流】、NoSQL数据库【非结构化数据】）
数据生命周期分类：分类-存储-管理
数据管理：数据清洗-数据管理-数据分析
数据的价值：在重组中产生更大的价值
信息化浪潮：PC机（信息处理）互联网（信息传输）物联网和云计算（信息爆炸）
技术支撑：存储设备容量不断增加、CPU处理能力增高，网络带宽不断增加
数据产生方式变革：运营管理阶段-原创内容管理-感知式系统阶段
大数据特性：大量化快速化多样化价值密度低

相关技术
云计算：通过网络，以服务的方式，为千家万户提供非常廉价的IT资源
特点：超大规模计算、虚拟化、高可靠性和安全性、通用性、按需服务
服务模式：SaaS(软件即服务) PssS(平台即服务) IaaS(基础设施即服务)
类型：公有云、私有云、混合云
物联网：把传感器设备安装到各个物体中
层次：应用层、处理层、网络层、感知层
人工智能关键技术：机器学习知识图谱自然语言处理人机交互技术计算机视觉生物特征识别技术 VR和AR技术
大数据技术：数据采集与预处理数据存储和管理数据处理与分析数据可视化数据安全和隐私保护
NewSQL是对各种新的数据库的简称，例如Spanner，保持ACID和SQL特性；都支持关系数据模型，都以SQL为主要接口
NoSQL是菲关系数据库的统称，没有严格遵守ACID约束
计算模式：批处理计算（MapReduce,Spark）流计算（实时,Streams）图计算查询分析计算(存储管理和查询分析，Hive)
数据可视化作用：观测跟踪数据（百度实时路况）分析数据辅助理解数据（微软人立方）增强数据吸引力
数据可视化案例：互联网地图，编程语言影响力世界国家健康和财富之间的关系
数据安全：身份认证技术防火墙技术访问控制技术入侵检测技术加密技术

大数据应用举例
推荐系统：协同过滤推荐专家推荐基于内容的推荐基于统计的推荐混合推荐
长尾理论：长尾商品准确推荐给用户，非热门，个性化
智慧医疗在线系统：以患者为中心，智能穿戴设备
智能物流：阿里巴巴的中国智能物流骨干网（菜鸟网络，地网）天网（天猫与物流快递公司进行数据对接）
城市管理：智能交通（公共车辆管理系统，掌上公交）环保监测（谷歌森林监视污染地图）城市规划（公交IC卡数据，移动通话数据社交网络数据地理数据搜房网）安防领域（平安城建）
金融领域：消费者行为预判市场情绪分析信贷风险分析（阿里小贷）征信系统
零售领域：关联购买行为客户群体细分供应链管理
体育和娱乐：训练球队影视剧的作品投拍（Netflix）比赛结果预测（百度预测）
其他：谷歌无人驾驶汽车餐饮O2O(无缝线上线下闭环运营) 团购模式（百度糯米个性化）线下门店选址问题（棒约翰）人流量控制离网预测（中国移动经营分析系统）流行病预测（谷歌）实时犯罪预警

大数据安全与伦理
威胁：成为显著攻击目标加大隐私泄露风险大数据被应用到攻击手段中大数据成为高级可持续攻击的载体
意义：自媒体成为影响国家意识形态安全的重要因素、个人国家安全受到挑战
案例：棱镜事件，维基解密，Facebook数据滥用事件，手机软件过度采集个人信息，12306囤票案件，免费Wifi窃取用户信息，探针盒子
数据保护的基本原则：数据主权原则，自由流通原则，数据保护原则（法律地位）数据安全原则（完整，安全使用，合法授权）
对策：国家法制企业源头个人意识
大数据思维方式：全样而非抽样（商品比价网）、效率而非精确（谷歌翻译）、相关而非因果（药品研发）、以数据为中心（点击模型），我为人人-人人为我（实时导航）
伦理案例：信息欺诈问题隐性偏差问题数字鸿沟问题数据独裁问题数据垄断问题数据失真问题人的主体地位问题
常见大数据治理模型：ISACA模型(国际信息系统审计和控制协会) HESA数据治理模型数据治理螺旋模型

数据开放与数据交易
政府开放数据理论：数据资产理论数据权理论开放政府理论
开放数据三个时期：被动开放主动开放数据价值挖掘
政府开放数据集：德国（Alumniportal）日本（Data.go.jp）中国（北京，上海公开数据开放平台，云上贵州，厦门健康信息系统）
问题：政策与立法滞后数据利用价值低（无法实时更新，不全面）平台不健全缺乏人才支撑基础数据库缺乏整体协同
数据交易形式：大数据交易公司数据交易所 API模式其他
交易平台类型：综合数据服务平台第三方数据交易平台
数据来源：政府公开数据企业内部数据数据供应方数据网页爬虫数据
产品类型：API 数据包云服务解决方案数据定制服务数据产品
代表交易平台：贵阳大数据交易所上海数据交易中心华东江苏大数据交易中心
数据估值：数据样本量数据多样性数据完整性数据实时性数据深度数据样本覆盖度数据稀缺性数据时间维度

NoSQL=Not only SQL
特点：灵活的可扩展性灵活的数据模型和云计算的紧密结合
缺点：不支持事务的强一致性缺乏底层理论做支持
类型：键值数据库（redis）列族数据库(HBase) 文档数据库（MongoDB）图数据库（Neo4j）
键值数据库：频繁读写，数据模型简单，通过键来查找数据，无关联关系；构建缓冲层
列族数据库：分布式管理，动态增减字段，不支持强事务一致性；
文档数据库：较好的并发性，不支持事务机制；
图数据库：高度相互关联的数据;
三大理论基石：CAP理论（一致性，可用性，分区容忍性） BASE(基本可用，软状态，最终一致性) 事务一致性
NewSQL保证强一致性，事务一致性，水平可扩展性，支持海量存储【Amazon RDS;SQL Azure】
云数据库
AWS(Amazon Web Service):SimpleDB,DynamoDB,RDS
SQL Azure:SQL Server实例，全局分区管理器，协议网关组件，分布式基础组件
阿里云RDS:RDS实例是用户购买RDS服务的基本单位;地域（近）;磁盘容量和RDS连接数；

MapReduce分布式并行编程框架
核心：map函数和reduce函数，map输入<k,v>,输出list<k,v>,reduce输入<key,list-value>,输出<key,value>
理念：计算向数据靠拢而不是数据向计算靠拢（数据无需迁移，计算可以直接在该数据节点上完成计算操作）
架构：Master/Slave架构，一个Master服务器（包含JobTracker,负责整个作业的调度），若干个slave服务器（包含TaskTracker,负责完成具体的任务处理）。
工作流程：数据分片（InputFormat组件）-Map任务(然后Shuffle)-Reduce任务-输出（Outputformat）
map任务的数量取决于分片的数量 reduce任务取决于机器的数量
Shuffle过程：Map端【输入数据和执行Map任务，写入缓存，溢写（溢写比），文件归并】；Reduce端【领取数据，归并数据，reduce任务】
要求：独立无依赖关系
过程：编译成可执行class文件；打包为jar包，在Hadoop中运行jar包；
Hadoop执行MapReduce的几种方式：hadoop jar;pig;Hive数据仓库；Python;Shell；

Hive
数据仓库：支持企业内部商业决策（数据源数据存储和管理分析与挖掘引擎上层应用）
特性：采用批处理方式处理数据 Hive提供了一系列对数据进行提取，转换，加载的工具。
模块：Hive对外访问接口（HWI CLI JDBC和ODBC Thrift Server）驱动模块（将SQL转换为MapReduce任务）元数据存储模块（独立的关系型数据库）
HIve HA基本原理：访问HA Proxy;执行逻辑可用性测试；每隔一定周期会统一进行处理
Impala建立在Hive元数据之上，实时交互查询
Impala组件：impalad(协调客户端提交的查询的执行)；Statestored（收集Impalad信息）；CLI(提供命令行的查询和接口)

Stream

Stream描述成一个无限的Tuple序列。
Spout从外部数据源读取数据，封装成Tuple形式
Storm将Streams的状态转换过程抽象为Bolt,处理Tuple,创建新的Streams
Topology相当于MapReduce中的job
Stream Groupings指定按某种方式将Task发布给下一个Bolt(shufflegrouping,fieldsgrouping allgrouping Nongrouping DirectGrouping Globalgrouping)