大数据
Master_Yoda
Named after the name of God,by your hands!
展开
-
大数据技术笔记之数据采集和预处理
1.大数据采集大数据采集包含:系统日志采集方法、网络数据采集方法(通过网络爬虫实现)、其他数据采集(通过特定的接口)1.1 系统日志采集方法Flume: 分布式日志收集系统,最初由Cloudera 开发,现是Apache的一个开源项目Chukwa:开源分布式数据收集系统,是Hadoop 的组成部分,构建在 hdfs 和 map/reduce 框架之上Scrible:Scribe是fa...原创 2018-10-20 20:06:15 · 14945 阅读 · 0 评论 -
大数据笔记之分布式文件系统HDFS笔记一
分布式文件系统就是把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。这些节点分为两类。一类叫做“主节点”(Master Node),也叫做“名称节点”(Name Node)另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode)1.HDFS总体而言,HDFS要实现以下目标: 兼容廉价的硬件设备 流数据读写 大数据集 简单...原创 2018-10-20 20:46:26 · 775 阅读 · 0 评论 -
大数据笔记之分布式文件系统HDFS笔记二
1. 通信协议HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要通过网络进行传输 ,所有的HDFS通信协议都是构建在TCP/IP协议基础之上的,客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使用客户端协议与名称节点进行交互名称节点和数据节点之间则使用数据节点协议进行交互客户端与数据节点的交互是通过RPC(Remote Procedure Call)来实现的。在设...原创 2018-10-29 19:55:33 · 452 阅读 · 0 评论 -
大数据学习笔记之分布式并行处理MapReduce
谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的 开源实现,后者比前者使用门槛低很多。MapReduce和传统的并行计算框架的比较传统并行计算框架MapReduce集群架构/容错性共享式(共享式存储/共享内存)非共享式,容错性好硬件/价格/扩展性刀片服务器、高速网、SAN、价格贵,扩展性差普通PC机,便宜,扩展性...原创 2018-11-01 10:43:40 · 5491 阅读 · 0 评论