- 博客(27)
- 资源 (1)
- 收藏
- 关注
转载 JAVA面试题集锦
Java面试题(01)Java面试题(02)Java面试题(03)Java面试题(04)Java面试题(05)Java面试题(06)Java面试题(07)Java面试题(08)Java面试题(09)Java面试题(10)Java面试题(11)Java面试题(12)Java面试题(13)...
2018-09-28 16:29:21 15502 11
转载 算法和编程面试题精选TOP50!(附代码+解题思路+答案)
作者 | javinpaul编译 | 王天宇、Jane整理 | Jane出品 | AI科技大本营【导读】之前我们给同学们推荐了很多关于 Python 的面试资源,大家都表示很有用。这次营长表示要翻 Java 的牌子啦~ 应大家的强烈反馈,我们找了一套 Java 语言的算法和编程的面试题。这份面试资源主要包含五部分内容:数组、链表、字符串、二叉树和重要算法(如排序算法)的编程面试题,其中每...
2018-09-28 08:56:38 1811 3
转载 Linux环境下搭建Apache服务器(完整版)
Linux下搭建Apache服务器(完整版)什么是Apache?Apache Licence是著名的非盈利开源组织Apache采用的协议。该协议和BSD类似,同样鼓励代码共享和尊重原作者的著作权,同样允许代码修改,再发布(作为开源或商业软件)。需要满足的条件也和BSD类似Apache主要特点1、开放源代码、跨平台应用2、支持多种网页编程语言3、模块化设计 、运行稳定...
2018-09-26 14:59:26 28305 2
原创 Flume安装和实时读取HIVE的日志
一、解压tar包二、配置环境变量1、Flume安装在Hadoop集群中export JAVA_HOME=/usr/lib/jvm/java-6-sun2、Flume安装在了Hadoop集群中,配置HA#export JAVA_HOME=还需要把Hadoop中的core-site.xml hdfs-site.xml 拷贝到Flume的conf目录下。3、没有安装在集群中export...
2018-09-26 14:44:45 537
原创 Flume
一、概述Cloudera 公司开发的实时的日志采集-> 捐献给了apache适用于实时的数据分析 (spark)同样也可以用于离线的分析 (hive)Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amou...
2018-09-26 14:29:26 179
原创 MapReduce处理数据
1、编写自定义类如果写二次排序的话再在里面添加package org.hdfs.urlMapReduce;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.io.WritableComparable;public class...
2018-09-25 11:40:42 1249
原创 HIVE与HBase的集成
作用:将HBase的数据映射到HIVE表中。HIVE表类型:管理表:在HIVE表中建表的同时在HBase中不存在该表,HBase创建相同的表·,数据不是在HIVE中而是在HBase中。外部表:在HIVE中建表,同时HBase的表要提前存在,数据同样存储在HBase中。(你创建的外部表的数据来源于HBase中)框架之间的继承操作,首先考虑的是jar包:可以把HIVE集成HBase...
2018-09-25 11:12:11 1086
转载 用hive解决数据的查找问题(影评案例)
现有如此三份数据:1、users.dat 数据格式为: 2::M::56::16::70072对应字段为:UserID BigInt, Gender String, Age Int, Occupation String, Zipcode String对应字段中文解释:用户id,性别,年龄,职业,邮政编码2、movies.dat 数据格式为: 2::Ju...
2018-09-23 17:59:39 994 2
转载 group by 多个字段
首先group by 的简单说明: group by 一般和聚合函数一起使用才有意义,比如 count sum avg等,使用group by的两个要素: (1) 出现在select后面的字段 要么是是聚合函数中的,要么就是group by 中的. (2) 要筛选结果 可以先使用where 再用group by 或者先用...
2018-09-23 15:26:06 5851
转载 JDK的安装及环境部署
from: https://blog.csdn.net/u012934325/article/details/73441617/1.JDK下载地址: http://www.oracle.com/technetwork/java/javase/downloads/index.html点开链接你应该看到如下图所示的界面: 2.点击上图中箭头所指的地方,会出现下面的这个界面,此时你...
2018-09-22 12:11:48 3778
转载 HBase的RowKey设计
转载出自:https://blog.csdn.net/silentwolfyh/article/details/51620724#t1 阅读目录2.1.1 Rowkey长度原则2.1.2 Rowkey散列原则2.1.3 Rowkey唯一原则2.2.1 针对事务数据Rowkey设计2.2.2 针对统计数据的Rowkey设计2.2.3 针对通用数据的Rowkey设计2.2.4 支持多条件...
2018-09-21 10:50:24 519
原创 HBase表的分区
Table RegionsNameRegion ServerStart KeyEnd KeyRequeststt2,1537493510149.5a01a3698ddcb718c2c38137a912eada.hh:600201000000tt2,100000,1537493510149.d6e0352bda247d949c428d5410512c18....
2018-09-21 09:38:49 2769
原创 Mapreduce于HBase集成
Mapreduce于HBase集成集成的模式从hbase中读取数据,Hbase的数据作为map的输入,输出可以任意指定.将数据写入Hbase,将hbase作为reduce的输出,输入可以任意指定.从hbase中读 最终在写入到hbase中,场景: 数据迁移.在hbase中已经封装好了jar包:hbase-server-0.98.6-cdh5.3.6.jar1、环境的配置将hbas...
2018-09-20 22:42:13 353
原创 Pom文件的错误
Pom导入包第一行出现错误项目从JAVA转到MAVEN的时候加载包出错了。因为网不好,包没有加载全。我的Maven没有选中 ,要选中这个Maven。要么是我这里没有选中Maven的lib包...
2018-09-19 17:19:57 2159
原创 HBase的JAVA_API
HBase的JAVA_API先加载包<?xml version="1.0"?>&
2018-09-19 17:13:36 147
转载 HBase官方文档中文版
<link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/template/css/ck_htmledit_views-e2445db1a8.css"> <div class="htmledit_views"&
2018-09-19 10:41:43 5944
原创 fsimage与editslog
fsimage与editslogNameNode中的元数据是在内存中用ArrayList保存的,但是要考虑到如果电脑停电了突然关机了,那么NameNode中的元数据就被释放掉没有了,所以就有editslog,editslog包含了元数据还有一系列的操作。如果要使用这些数据,在开机的时候就会加载editslog,恢复到关机之前的场景,因为我们处理的是大数据,里面有亿万级的操作,每次开机的时候很慢...
2018-09-18 19:52:32 888 1
原创 HBase的命令
Hbase的基本命令进入语句bin/hbase shell要想删除内容就得先把会话界面修改成Linux。 然后用Ctrl+Backspace组合键进行删除。创建命名空间域
2018-09-17 19:39:39 252
原创 HBase基础知识
1、Hbase的概念HBase 的原型是 Google 的 BigTable 论文,受到了该论文思想的启发,目前作为 Hadoop 的 子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org2006 年 Google 发表 BigTable 白皮书2006 年开始开发 HBase2008 年北京成功开奥运会,程序员默默地将 HBas...
2018-09-17 15:36:55 325
原创 Hbase的安装
Hbase安装1 解压hbase的安装包2 配置conf/配置文件配置Hbase-env.sh给定java的安装路径export JAVA_HOME=/opt/app/jdk1.8.0_181设置hbase自带zk为false 表示不使用hbase自带的zkexport HBASE_MANAGES_ZK=false 配置 hbase-site.xml...
2018-09-17 14:58:15 154
原创 HIVE之优化
HIVE优化1、表和sql语句的优化思想: 大表拆分成小表,分区表,(动态分区)有可能产生大量的分区,外部表(保证数据安全),临时表是将表的数据清洗,获得想要的字段。2、MR优化思想: HIVE中底层运行的是MR程序,所以也要对MR进行优化。并行执行: 在map运行过程中,有的时候需要存在依赖关系。 例如:做单词统计,一个map做完单词统计,下一个map的输入正好是...
2018-09-17 13:58:26 216
原创 伪分布式安装zookeeper
前提:在一台机器上运行三个zk服务cd ~/bigdater/softs; wget http://archive.cloudera.com/cdh5/cdh/5/zookeeper-3.4.5-cdh5.3.6.tar.gz cd ..; tar -zxvf softs/zookeeper-3.4.5-cdh5.3.6.tar.gz mv zookeeper-3.4.5-cdh5.3...
2018-09-17 11:27:54 1233
原创 Hive中四种 join on筛选条件与where筛选条件的区别
tableA的结构及数据:id name grade dept 1 lijie1 100.0 102 lijie2 90.0 203 lijie3 60.0 104 lijie4 80.0 105 lijie5 70.0 20tableB的结构及数据:id name 1...
2018-09-16 21:39:51 15560 2
原创 Unable to load native-hadoop library for your platform... using builtin-java classes where applicabl
Unable to load native-hadoop library for your platform... using builtin-java classes where applicable刚刚关我的jps出现了关不掉的问题,我重新连接然后再关掉就可以了,我也不知道是什么错误。...
2018-09-15 22:20:10 518
原创 Sqooop使用模板
Sqoop使用模板Sqoop使用模板1、测试连接数据库2、将数据从MySQL导入到HDFS1、导入到默认的HDFS路径2、导入到自定义路径3、设置map的数量,以及删除目标文件夹,防止目标路径已存在4、设置map的数量,以及删除目标文件夹,以及指定导出分隔符3、将数据从MySQL导入到hive中4、将数据从HDFS导出到MySQL中5、将数据从hive导出到M...
2018-09-15 20:53:35 350
原创 HIVE的模板
HIVE的使用模板1、显示所有数据库show databases;2、显示数据库所有的表use mydatabase;show tables;3、查询表中的内容select * from mytable;4、显示表的结构desc mytable;5、创建数据库create database mydatabase;6、清空表内...
2018-09-15 20:05:07 607 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人