hadoop
Java_Soldier
384930333@qq.com
展开
-
初识hadoop
hadoop做了什么事: 提供了海量离线数据的存储,提供了海量离线数据的分布式计算,同时具备高可靠,高吞吐,分布式的特点。hadoop核心组件: hdfs(分布式存储),mapreduce(分布式计算),yarn(资源调度平台)①海量数据的存储: 通过hdfs实现,hdfs是一个分布式的高可靠的存储框架,由namenode,datanode,secondary原创 2017-09-15 17:16:35 · 7673 阅读 · 0 评论 -
hadoop块的概念
datanode负责存储数据,namenode负责管理元数据,管理元数据通过fsimage(磁盘中元数据的镜像文件)和edits文件(操作日志)HDFS的block默认为128M,块设置的这么大,是为了最小化寻址的开销,如果块设置的足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间,因而,传输一个由多个块组成的文件的时间取决于磁盘的传输速率。但是这个数也不会设置的过大,mapreduce中的map任务通常一次只处理一个块中的数据,因此如果任务数太少(少于集群中节点的数量),运行速度会很慢原创 2017-12-13 14:50:43 · 8790 阅读 · 0 评论 -
基于rsync+sersync数据实时双向同步的设计(一)
大数据最广泛的一个应用场景就是构建数据仓库,数据仓库中的数据生命周期一般包括:数据的获取,数据的分类,数据的解析清洗,上传到hdfs。或多或少,主要都是这几个过程,asiainfo这边的离线分析的数据,通过远程接口机接入(文件或压缩包的形式),部通过部署的可视化的etl工具(木兰工具),定时去扫描远程接口机的文件,然后开启ftp服务,ftp到本地,在进行解析,加工,入库。定时包括天级别,小原创 2017-10-28 15:07:17 · 14227 阅读 · 0 评论 -
OLAP和OLTP
OLAP和OLTP的区别(基础知识)联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)原创 2017-09-19 17:08:56 · 8170 阅读 · 0 评论 -
hadoop集群安装配置
写在前面:博主本人用的是13年的pc廉价pc机,硬件有限,所以用4台虚拟机,一主三从的形式搭建了一个hadoop集群,并没有搭建高可用的集群,下面为整体步骤:1、修改主机名 /etc/sysconfig/network2、修改hosts文件 /etc/hosts3、安装jdk4、安装hadoop5、修改配置文件6、克隆虚拟机7、修改各个机器上的host原创 2017-09-16 14:15:31 · 8711 阅读 · 0 评论 -
hdfs元数据保存
====namenode如何保存元数据1.nn对元数据的管理分为三部分,内存中完整的元数据,磁盘中接近完整的元数据镜像文件(fsimage),记录元数据操作信息的edits文件2.snn通过配置,定时请求nn,进行checkpoint3.nn接受到checkpoint请求,会立即滚动正在写的edits文件4.snn从nn上下载fsimage和edits文原创 2017-09-16 13:05:08 · 10940 阅读 · 0 评论 -
hdfs读文件流程
====客户端向hdfs文件系统读数据流程1.客户端向nn请求读数据-/aaa.txt2.nn检查是否有这个数据,返回这个文件的元数据(有几个副本,分为几个block,block分别在在哪个dn上)3.客户端拿到信息,选择距离最近的dn请求连接4.与DN建立连接管道,dn向管道中以packet形式写数据5.客户端从管道中拿到blokck1,客户端继续请求下一原创 2017-09-15 22:57:17 · 8242 阅读 · 0 评论 -
hdfs写文件流程
eg:client上传150M的数据到hdfs1.客户端向namenode请求上传数据。是先写到edits文件中,记录操作日志2.namenode检查连接条件,返回同意连接3.client端请求上传第一个block(128M),返回dn列表4.nn返回可用的dn列表dn1,dn2,dn4(dn选择策略:距离/空间;第一个副本优先选择同机架的dn节点,第二个副本考虑安全性要跨机架,第原创 2017-09-15 22:27:19 · 8425 阅读 · 0 评论 -
电信数据分类
运营商的数据各式各样,大体分为以下几类业务支持系统(BSS)主要实现了对电信业务、电信资费、电信营销的管理,以及对客户的管理和服务的过程,它所包含的主要系统包括:计费系统、客服系统、帐务系统、结算系统以及经营分析系统等。管理支持系统(MSS),包括为支撑企业所需的所有非核心业务流程,内容涵盖制订公司战略和发展方向、企业风险管理、审计管理、公众宣传与形象管理、财务与资产管理、人力原创 2018-04-27 15:22:34 · 1896 阅读 · 1 评论