大数据(读书笔记)

1. 基本概念

1.1 大数据的核心就是预测

1.2 思维变革

    1)更多:不是随机样本,而是全体数据 (大数据让我们更清楚地看到了样本无法揭示的细节信息,让数据发声

    2)更杂:不是精确性,而是混杂性

    3)更好: 不是因果关系,面是相关关系 (只需要知道是什么,而不需要知道为什么)

    大数据,改变人类探索世界的方法。

1.3 商业变革

    1)数据化:一切皆可“量化”

    2)价值:“取之不尽,用之不竭”的数据创新

    3)角色定位:数据、技术与思维的三足鼎立(大数据价值链的构成:大数据掌控公司<如:ITASoftware>、大数据技术公司<如:Farecast>、大数据思维公司和个人、全新的数据中间商)

    大数据,决定企业的竞争力。

1.4 管理变革

    1)风险:让数据主宰一切的隐忧

    2)掌控:责任与自由并举的信息管理

    大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。

1.5 实例

    1)验证(数学模型)预测是否准确的方法:根据过去几年的数据进行计算,看是否与过去的结果一致(Google预测流感采用此方案)。

    2)Farecast:埃齐奥尼创立的一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站<ITASoftware>上搜集的。这个预测系统并不能说明原因,只能推测会发生什么。它只知道利用其它航班的数据来预测未来机票价格的走势,能帮助消费者抓住最佳的购买时机。在Farecast得到投资之后 ,找到了一个行业机票预订数据库,如今Farecast已经拥有约2000亿条飞行数据记录。在Microsoft以1.1亿美元收购之后,其预测准确度高达75%,平均每张机票可节省50美元。

   3)数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

   4)大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构、以及政府与公民关系的方法。

   5)真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

   6)量变-->质变: 如纳米技术,是让一切变小而不是变大。其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。一旦你知道这些新的性质,就可以用同样的原料来做以前无法做的事情。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当我们增加所利用的数据量时,我们就可以做多在小数据的基础上无法完成的事情。

   7)亚马逊可以帮我们推荐想要的书,google可以关联网站排序,facebook知道我们的喜好,而LinkedIn可以猜出我们认识谁。同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在的犯罪分子。

   8)大数据已经成为解决紧迫世界性问题,如抑制全球变暖、消除疾病、提高执政能力和发展经济的一个有力武器。

2. 不是随机样本,而是全体数据

    1)随机采样的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样的随机性存在任何偏见,分析结果就会相去甚远。  

   


 

  

    

















  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
第一部分 Spark学习 6 第1章 Spark介绍 7 1.1 Spark简介与发展 7 1.2 Spark特点 7 1.3 Spark与Hadoop集成 7 1.4 Spark组件 8 第2章 Spark弹性分布数据集 9 2.1 弹性分布式数据集 9 2.2 MapReduce数据分享效率低 9 2.3 MapReduce进行迭代操作 9 2.4 MapReduce进行交互操作 10 2.5 Spark RDD数据分享 10 2.6 Spark RDD 迭代操作 10 2.7 Spark RDD交互操作 10 第3章 Spark安装 11 第4章 Spark CORE编程 13 4.1 Spark Shell 13 4.2 RDD Transformations 13 4.3 Actions 16 4.4 用RDD编程 17 4.5 UN-Persist存储 18 第5章 Spark调度与高级编程 20 5.1 Spark应用程序例子 20 5.2 Spark-submit语法 22 5.3 Spark变量 23 5.4 数字类型 RDD操作 23 第二部分 ZOOKEEPER学习 24 第6章 zookeeper介绍 25 6.1 zookeeper简介 25 6.2 分布式应用程序 25 6.3 Apache Zookeeper意味着什么? 26 第7章 zookeeper基本组成与工作流程 27 第8章 zookeeper的leader节点选择 31 第9章 zookeeper安装 33 第10章 zookeeper 命令行接口 35 第11章 zookeeper应用程序接口 39 第12章 zookeeper应用 40 第三部分 KAFKA学习 48 第12章 KAFKA介绍 49 12.1 KAFKA简介 49 12.2信息系统 49 12.3 KAFKA是什么? 50 第13章 KAFKA基本组成与集群架构 51 13.1 KAFKA的基本组成 51 13.2 KAFKA集群架构 52 第14章 KAFKA工作流程 53 14.1 PUB-SUB信息工作流 53 14.2 队列信息工作流/消费者组 53 14.3 Zookeeper在KAFKA中扮演的角色 54 第15章 KAFKA安装 55 第16章 KAFKA基本操作 56 16.1 启动zookeeper服务 56 16.2 单个单节点中间件配置 56 16.3 Topics列表 56 16.4 启动生产者发送信息 57 16.5 启动消费者接收信息 57 16.6 单个多节点中间件配置 57 16.7 创建一个topic 58 16.8 启动生产者发送信息 59 16.9 启动消费者接收信息 59 16.10 基本Topic操作 59 16.11 删除Topic 59 第17章 KAFKA 生产者与消费者群实例 60 17.1 生产者实例 60 17.2 简单消费者实例 63 17.3 消费者群例子 65 第18章 KAFKA与SPARK集成 67 18.1 Kafka与spark集成 67 18.2 SparkConf API 67 18.3 StreamingContext API 67 18.4 KafkaUtils API 67 18.5 建立脚本 69 18.6 编译/打包 69 18.7 提交到Spark 69 第四部分HIVE学习 70 第19章 HIVE介绍 71 19.1 HIVE是什么? 71 19.2 HIVE特点 71 19.3 HIVE架构 71 19.5 HIVE工作流 72 第20章 HIVE 安装 74 20.1 Hadoop安装 74 20.2 HIVE安装 77 20.3 Derby安装与设置 78 第21章 HIVE 数据类型 80 21.1列类型(Column Type) 80 21.2文本类型(Literals) 81 21.3 Null 值 81 21.4 复杂类型 81 第22章 数据库操作 82 22.1 创建数据库 82 22.2 删除数据库 82 第23章 数据表操作 83 23.1 创建数据表 83 23.2 load数据(插入数据) 85 23.3 修改数据表(Alter table) 86 23.4 删除表(Drop table) 90 第24章 分区 92 24.1 添加分区(Adding a Partition) 93 24.2 重命名分区(Renaming a Partition) 93 24.3 删除分区(Droping a Partition) 93 第25章 内置运算符 94 25.1 关系运算符 94 25.2 算术运算符 96 25.3 逻辑运算符 97 25.4 复杂运算符(Complex Operators) 97 第26章 内置函数 98 26.1 内置函数 98 26.2 聚合函数(Aggregate Functions) 99 第27章 视图与索引 100 27.1 创建视图(Creating a View) 100 27.2 删除视图(Dropping a View) 100 27.3 创建索引(Creating an Index) 101 27.4 删除索引(Dropping an Index) 101 第28章 HIVEQL 102 28.1 查询语句(SELECT ...WHERE) 102 28.1.1 查询语句实例 102 28.1.2 JDBC查询语句实例 102 28.2 查询语句(SELECT...ORDER BY) 103 28.2.1 ORDER BY查询语句实例 103 28.2.2 JDBC ORDER BY 查询语句实例 104 28.3 查询语句(GROUP BY) 104 28.3.1 GROUP BY查询语句实例 104 28.3.2 JDBC GROUP BY查询语句实例 105 28.4 查询语句(JOIN) 106 28.4.1 JOIN查询语句实例 106

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值