Hadoop
九八年的尾巴
一个愿意分享和倾听的年轻人
展开
-
Hadoop系列(八)Hadoop集群
创建三台虚拟机 一台有安装Hadoop 另外两台只安装jdk即可复制的:清除之前的Hadoop安装目录SSH目录清除/home/hadoop/app/tmp192.168.0.105主 NameNode:奴隶主 DataNode:奴隶192.168.204.132副 dataNode:奴隶192.168.0.101副 dataNode:奴隶所谓集群,就是把Datanode放在其他服务器中HDFSNN DNYARNRM NM!!首先配置host文件,方便修改,注意三台原创 2020-07-25 16:30:15 · 111 阅读 · 0 评论 -
Hadoop系列(七)HBase的安装及使用
Hadoop database 的简称,也就是基于Hadoop面向列的分布式数据表数据库,是一种NoSQL数据库,主要适用于海量明细数据(十亿、百亿)的随机实时查询,如日志明细、交易清单、轨迹行为 ,类似与nosql数据库hbase为id 和列组 列组类似姓氏 一个姓氏可以加很多列为查询而生,通过阻止节点内所有机器的内存,提供超大的内存Hash表hive是高延迟、结构化和面向分析的,hbase是低延迟、非结构化和面向编程的。Hive数据仓库在hadoop上是高延迟的。Hbase与Hive区别Hiv原创 2020-07-23 10:04:44 · 192 阅读 · 0 评论 -
Hadoop系列(六)Hive的使用
数据仓库工具数据仓库和数据库 是不一样的概念数据库:针对数据的增删改查,业务性操作数据仓库:存储日志数据或统计好的数据,主要用于分析数据、捕获数据、存储历史数据,多为报表 主要提供决策支持而非业务。进行数据提取、转化、加载,是一种可以存储,查询和分析,底层hdfs。使用近似的sql语句去操作hdfs和进行简单的mapreduce操作。一般来做的操作是增加和查询。mapreduce出来的结果存储在数据仓库不同点: 数据内容的不一致 数仓一般不会修改源数据,数据库不一样(增删改) 目的性不原创 2020-07-23 10:01:46 · 235 阅读 · 0 评论 -
ETL数据清洗代码操作
数据清洗数据清洗: 洗衣服 =》 脏东西洗出来 数据清洗 =》脏数据 有的时候数据并非全部需要 不符合格式的数据 不是所有的数据都符合目前情况 或缺少值 清除掉 1、给默认值 2、转化 比如 男 女 3、删除错误数据,不符合格式的数据pu原创 2020-07-18 13:22:36 · 672 阅读 · 0 评论 -
Hadoop系列(五)Mapreduce的使用,字符串分隔取需要值计算
计算框架:一个作业拆分成Map阶段和Reduce阶段 计算数据,挖取资源,基于硬盘的。主要数据清洗,把乱的数据清洗出来先输入一个大的模块, 然后给它切分成不同的小模块 取出每个小模块的值赋一个1,方便后面的总结input:日志文件输入splitting:切片Mapping:多个键值对转换成一系列键值对shuffling:洗牌,把散落的计算结果按照key值进行放在一起,把相同花色放在一起Reducing:相同的key结合在一起,也就是一个合并处理,最后进行统计数据出现多少次TextInp.原创 2020-07-16 01:41:50 · 905 阅读 · 0 评论 -
Hadoop系列(四)之YARN的使用
1 什么是YARNYet Another Resource Negotiator通用的资源管理系统提交任务到YARN进行统一的资源管理及调度当集群特别庞大时,我们可能有很多节点,可能有上万台服务器。可以监控所有节点去处理,可以调配去处理master: resource management:ResourceManager (RM)job scheduling/monitoring:per-application ApplicationMaster (AM)slave: NodeManager原创 2020-07-13 16:24:48 · 397 阅读 · 0 评论 -
Hadoop系列(三)JavaAPI常用操作HDFS
本地javaAPI操作打开HDFS文件@Test public void makbir(){ Configuration configuration = new Configuration(); //configuration.set("dfs.replication","1"); try{ FileSystem fs = FileSystem.get(new URI("hdfs://192.168.0.105:9000"),原创 2020-07-13 16:23:18 · 171 阅读 · 0 评论 -
Hadoop系列(二)HDFS常用操作,映射操作修改本地ip上传文件
HDFS文件系统,用于存储文件,一次写入,多次读出操作大数据:以电商为例 记录日志,计算日志,根据日志预测优点:集群 好几台机器共同去存储这个日志。分成多块。容错性好(提高安全性,比如记录一年的日志信息服务器坏掉丢了,创建副本,服务器随机有一份或两份),可以处理大规模数据,服务器要求低缺点:数据访问低,大量小文件不容易存储,不支持并发写入副本机制NameNode:Master,管理者,管理HDFS命名空间,管理数据块,存放元数据,处理客户端读写请求DataNode:Slave,执行者,负责执行具原创 2020-07-13 16:19:49 · 1553 阅读 · 0 评论 -
Hadoop系列(一)安装hadoop及初步使用
所谓大数据指的是数据量大,并且复杂多变的数据,为处理这些问题新的技术应运而生,hadoop主要就是用于解决大数据的存储问题以及计算问题Hadoop是Apache基金下的分布式系统架构,其实广义上讲hadoop指的是Hadoop生态圈Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache版本最原始(最基础)的版本,对于入门学习最好。Cloudera Hadoop 在大型互联网企业中用的较多,相较于Apache版本在兼容性,安全性,稳定性上有所增强。接下来要安装的原创 2020-07-07 09:12:49 · 219 阅读 · 0 评论