大数据
文章平均质量分 64
十五亿少女的心
这个作者很懒,什么都没留下…
展开
-
HDFS分布式集群搭建详情
1.配置多个节点的网络映射使用命令 vi /etc/hosts例如: 192.168.79.123 node01 192.168.79.124 node02 192.168.79.125 node03 192.168.79.126 node04注:每个节点都需要配置/etc/hosts例如:scp /etc/hosts root@192.168.7...原创 2019-06-12 21:38:08 · 205 阅读 · 0 评论 -
通过eclipse插件与Hadoop搭建开发环境
1.启动Hadoop集群2.使用eclipse的Hadoop插件进行搭建3.将插件放置在eclipse的plugins中4.启动eclipse5.进入window中preferences中,点击hadoop Map/Reduce,选择hadoop工具包6.在点击java下的Build Path下的User Libraries添加lib文件添加jar包(jar包已上传)...原创 2019-06-13 20:39:53 · 239 阅读 · 0 评论 -
Zookeeper详细介绍
zookeeper定义:是一个分布式的,开放源码的分布式应用程序协调服务。在zookeeper中分为三种角色1、leader 领导者2、follower 跟随者3、observer 监视follower (是一个隐藏的)在zookeeper(恢复模式/leader挂掉了/集群刚启动)节点状态分为四种1、LOOKING:等待状态,一般出现在没有leader准备选举得得...原创 2019-06-18 21:16:49 · 276 阅读 · 0 评论 -
MapReduce的详细介绍---分片,分区,合并,归并>>shuffle过程
MapReduce的shuffle过程:这个过程就是输入一个杂乱,毫无规则的数据。在经过MapReduce通过自定义一些规则,分片,分区,在经过合并,归并的操作,最后让其按照这个规则输出来,写入磁盘。1.输入分片---分片输入分片(inputSpilt):在进入map之前,需要经过分片,在我们不设置分片的大小时候,有两种规则,一种就是block充满数据,就是分片的大小大约是一个bloc...原创 2019-06-14 21:41:46 · 2646 阅读 · 0 评论 -
Hive简单介绍与使用(上)
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive查询具体操作步骤1.解析:找出查询语句的关键字2.优化:将select经行优化,形成树3.编译:对select重新编译,形成相应的逻辑计划4.执行:将逻辑计划进行实现,转变成物理计划...原创 2019-06-19 21:17:12 · 567 阅读 · 0 评论 -
大数据几大主流技术----HDFS操作原理
大数据:短时间快速产生大量多种多样有价值的信息。当前谷歌三大论文:GFS -------------------->HDDS分布式文件系统(分布式的存储) MapReduce------------>分布式的处理 BigData------------------>HBase (一种数据库)解决数据量过大的问题: 1.垂直扩展...转载 2019-06-10 20:51:15 · 2225 阅读 · 0 评论 -
Hive使用(中)
导入将本地数据导入hiveload data local inpath '/root/tes.txt' into table 数据库.表;将hdfs集群导入到hiveload data inpath 'hdfs://node01:9000/user/tes.txt' into table 数据库.表;HIve分区表(静态分区,动态分区)静态分区: 必须在表定义时指定...原创 2019-06-20 21:01:39 · 457 阅读 · 1 评论 -
Hive的使(下)--JDBC连接/UDF自定义函数使用
使用IDEA与Hive连接public class JdbcTest { private static String dirverName="org.apache.hive.jdbc.HiveDriver"; public static void main(String[] args) throws ClassNotFoundException, SQLException ...原创 2019-06-21 21:25:16 · 970 阅读 · 0 评论