要想把大数据读懂,基于Hadoop与Spark的大数据开发实战pdf,足矣

本文探讨大数据的基本概念,包括大数据的四大特征:数据量大、类型繁多、价值密度低和处理速度快。同时阐述了大数据带来的挑战,如对现有数据库的冲击、实时性技术的需求和数据中心运维的压力。最后,推荐了基于Hadoop与Spark的大数据开发实战资源。
摘要由CSDN通过智能技术生成

大数据基本概念

1.大数据概述

相信大家经常会在各种场合听到“大数据"这个词,被誉为数据仓库之父的BillInmon早在20世纪90年代就将大数据挂在嘴边了。那么到底什么是大数据呢?这是我们在本章要了解的。

我们现在生活的时代是一一个数据时代,近年来随着互联网的高速发展,每分每秒都在产生数据,那么产生的这些数据如何进行存储和相应的分析处理呢?各大公司纷纷研发和采用一批新技术来应对8益庞大的数据处理需求,主要包括分布式文件系统、分布式计算框架等,这些都是我们需要学习和掌握的。

《互联网周刊》对大数据的定义为:“大数据 ”的概念远不止大量的数据(TB)和处理大量数据的技术,或者所谓的“4个V"之类的简单概念,而是涵盖了人们在大规模数据的基础上可以做的事情,这些事情在小规模数据的基础上是无法实现的。换句话说,大数据让我们以一种前所未 有的方式,通过对海量数据进行分析,来获得有巨大价值的产品和服务,或深刻的洞见,最终形成变革之力。

2.大数据特征

(1)数据量大(Volume)

随着网络技术的发展和普及。每时每刻都会产生大量的数据。在我们的日常生活中,比如说在电商网站购物、在直播平台看直播、在线阅读新闻等,都会产生很多的日志,汇在一起每分每秒产生的数据量将是非常巨大的。

(2)类型繁多(Variety)

大数据中最常见的类型是日志,除了日志之外常见的还有音频、视频、图片等。由于不同类型的数据没有明显的模式,呈现出多样性的特点,这对于数据的处理要求也会更高。

(3)价值密度低(Value)

现阶段每时每刻产生的数据量已经很大了,如何从大量的日志中提取出我们需要的、对我们有价值的信息才是最重要的。数据量越来越大,里面必然会存在着大量与我们所需不相干的信息,如何更迅速地完成数据的价值

1 序 2 思篇 2 CAP 2 最终一致性 2 变体 2 BASE 2 其他 2 I/O的五分钟法则 2 不要删除数据 2 RAM是硬盘,硬盘是磁带 2 Amdahl定律和Gustafson定律 2 万兆以太网 3 手段篇 3 一致性哈希 3 亚马逊的现状 3 算法的选择 3 Quorum NRW 3 Vector clock 3 Virtual node 3 gossip 3 Gossip (State Transfer Model) 3 Gossip (Operation Transfer Model) 3 Merkle tree 3 Paxos 3 背景 3 DHT 3 Map Reduce Execution 3 Handling Deletes 3 存储实现 3 节点变化 3 列存 3 描述 3 特点 4 软件篇 4 亚数据库 4 MemCached 4 特点 4 内存分配 4 缓存策略 4 缓存数据库查询 4 数据冗余与故障预防 4 Memcached客户端(mc) 4 缓存式的Web应用程序架构 4 性能测试 4 dbcached 4 Memcached 和 dbcached 在功能上一样吗? 4 列存系列 4 Hadoop之Hbase 4 耶鲁大学之HadoopDB 4 GreenPlum 4 FaceBook之Cassandra 4 Cassandra特点 4 Keyspace 4 Column family(CF) 4 Key 4 Column 4 Super column 4 Sorting 4 存储 4 API 4 Google之BigTable 4 Yahoo之PNUTS 4 特点 4 PNUTS实现 4 Record-level mastering 记录级别主节点 4 PNUTS的结构 4 Tablets寻址与切分 4 Write调用示意图 4 PNUTS感悟 4 微软之SQL数据服务 4 非云服务竞争者 4 文档存储 4 CouchDB 4 特性 4 Riak 4 MongoDB 4 Terrastore 4 ThruDB 4 Key Value / Tuple 存储 4 Amazon之SimpleDB 4 Chordless 4 Redis 4 Scalaris 4 Tokyo cabinet / Tyrant 4 CT.M 4 Scalien 4 Berkley DB 4 MemcacheDB 4 Mnesia 4 LightCloud 4 HamsterDB 4 Flare 4 最终一致性Key Value存储 4 Amazon之Dynamo 4 功能特色 4 架构特色 4 BeansDB 4 简介 4 更新 4 特性 4 性能 4 Nuclear 4 两个设计上的Tips 4 Voldemort 4 Dynomite 4 Kai 4 未分类 4 Skynet 4 Drizzle 4 比较 4 可扩展性 4 数据和查询模型 4 持久化设计 5 应用篇 5 eBay 架构经验 5 淘宝架构经验 5 Flickr架构经验 5 Twitter运维经验 5 运维经验 5 Metrics 5 配置管理 5 Darkmode 5 进程管理 5 硬件 5 代码协同经验 5 Review制度 5 部署管理 5 团队沟通 5 Cache 5 云计算架构 5 反模式 5 单点失败(Single Point of Failure) 5 同步调用 5 不具备回滚能力 5 不记录日志 5 无切分的数据库 5 无切分的应用 5 将伸缩性依赖于第三方厂商 5 OLAP 5 OLAP报表产品最大的难点在哪里? 5 NOSQL们背后的共有原则 5 假设失效是必然发生的 5 对数据进行分区 5 保存同一数据的多个副本 5 动态伸缩 5 查询支持 5 使用 Map/Reduce 处理汇聚 5 基于磁盘的和内存中的实现 5 仅仅是炒作? 6 附 6 感谢 6 本志 6 引用
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值