自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

KNIFE_PAN的专栏

三滴水

  • 博客(56)
  • 收藏
  • 关注

原创 YARN Fair Scheduler 配置

1.yarn-site.xml<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value></property><property>

2015-06-08 15:23:41 1755

原创 CDH5.x 使用Spark-sql

cdh5 中如果使用spark-sql 1.进入到spak安装目录,进入bin目录下,修改 compute-classpath.sh,CALSSPATH 中加入hive jarCLASSPATH="$CLASSPATH:/opt/soft/BI/cloudera/cm/cm5.3.1/cloudera/parcels/CDH/lib/hive/lib/*"2.在bin目录下执行./hive-sql

2015-05-22 15:27:17 904

原创 Spring-boot web 工程构建,并把maven子项目模块依赖jar打包,笔记

1.对于maven构建spring-boot web工程。pom.xml<?xml version="1.0"?><project xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd" xmlns="http://maven.apache.

2015-05-09 10:48:52 7220

原创 JS 日期格式化扩展Date

用法:(new Date()).Format(“yyyy-MM-dd hh:mm:ss.S”) ⇒ ==> 2006-07-02 08:09:04.423 // 对Date的扩展,将 Date 转化为指定格式的String // 月(M)、日(d)、小时(h)、分(m)、秒(s)、季度(q) 可以用 1-2 个占位符, // 年(y)可以用 1-4 个占位符,毫秒(S)

2015-05-09 10:18:27 901

原创 Ajax 跨域请求资源

第一种解决方案由于Ajax 请求跨域资源需要服务器返回jsonp的格式,所以要对服务器返回的json格式数据封装为jsonp public static String toJSONPString(Object o){ if(o!=null){ HttpServletRequest request = ((ServletRequestAttribute

2015-05-09 10:15:10 807

原创 cdh 运行spark yarn-cluster

1.如果用cdh安装sparn on yarn 直接用集群模式运行spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-memory 2g \ -

2015-04-23 13:22:12 4801

原创 Hive HDF 引用资源文件路径问题

1.UDF中没有引用其他资源文件 Hive UDF 函数,写完后打成jar包。放到指定目录下 例如:/home/hadoop/udf/ 并且在该目录下启动hive cli 执行add jar /home/hadoop/udf/timeOffset.jarcreate temporary function timeOffset(time) as 'cn.gitv.analysis.TimeOf

2015-04-17 14:52:06 7069

原创 Hive 表连接查询NullPointerException

2015-04-15 17:48:45,764 ERROR [uber-SubtaskRunner] org.apache.hadoop.hive.ql.exec.MapJoinOperator: Unxpected exception: nulljava.lang.NullPointerException at org.apache.hadoop.hive.ql.exec.MapJoin

2015-04-15 18:08:56 4288

原创 SparkFlumeEvent转换为实际输入字符串

JavaReceiverInputDStream<SparkFlumeEvent> flumeStream = FlumeUtils .createStream(ssc, host, port); flumeStream.flatMap(new FlatMapFunction<SparkFlumeEvent, String>() {

2015-04-15 10:40:56 1555

原创 SparkStreaming+Flume 环境搭建配置

1.JavaFlumeEventCountpackage cn.gitv.bi.log.analysis.spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;import org.apache.spark.streaming.Duration;import org

2015-04-15 10:32:28 949

原创 SCALA 安装和 SACLA ECLIPSE PLUGIN安装

SACLA 是基于JAVA虚拟机的所有,只要可以运行JAVA的操作系统,就可以安装SCALA Windows下安装如下 1.下载scalahttp://www.scala-lang.org/download/2.配置环境变量SCALA_HOME=...PATH=.;%SCALA_HOEM%/bin;3.SACLA EClIPSE PLUGIN 安装 在线安装– 打开eclipse>help

2015-04-13 18:51:08 720

原创 cloudera cdh sqoop2 加入myqsl 驱动包

下载mysql驱动包http://dev.mysql.com/downloads/file.php?id=454397.解压提取mysql-connector-java-5.1.31-bin.jar把提取的驱动JAR放到你的sqoop-server启动的节点的下面制定的目录下/var/lib/sqoop2/重启sqoop2具体操作参见http://sqoop.apache.org/d

2015-04-10 09:34:34 2717

原创 Java 反射由实体类生产hive或mysql表对应字段

如果一个实体类字段特别多,那么创建对应的RDBMS对应的表会让我感到抓狂,可以利用Java反射特性,生产对应字段 1.创建一个借口,定义一些常量public interface Constants { /**参数默认值*/ public static final String DEFAULT_PARAM_VAL = ""; /**中文字符集*/ public stat

2015-04-03 09:34:26 1320

原创 Hive 表被锁定,无法删除表

如果当hive 执行一个脚本查询的过程中,由于你的脚本进程遇到不可控的原因被杀死,这时你再去删除hive表中你查询关联到的表是无法删除的。 你可以使用命令 show locks tablename;查看你的表状态hive> show locks days_album_click_play;OKpb_log@days_album_click_play EXCLUSIVE可以看到此表有一个E

2015-04-03 08:16:43 11424

原创 文章标题

Hive 自定 InputFormat 解析 Hadoop MR 产生的SequenceFile 文件 注意: Hive 使用的MRV1 1.定义InputFormatpackage cn.gitv.bi.log.analysis.io;import java.io.IOException;import org.apache.hadoop.fs.FileStatus;import org.ap

2015-03-31 18:09:53 530

原创 wget 下载服务器文件

下载制定目录下的文件,下载完成停止,需要制定 --include-directories= 参数wget  -r -nd -np  --include-directories=20150318   http://10.57.130.67:9188/20150318/

2015-03-17 15:35:36 1444

原创 HIVE 性能调优

限制输出调整 Limit 语句在很多情况下还是会查询所有数据后才返回部分结果的,可以开启Hive的一个配置属性,这样 在使用limit时可以对数据进行抽样。 set hive.limit.optimize.enable=true 这个设置的缺点是,你可能永远也查不到你有用的数据。 还有两个参数可以控制这个操作 hive.limit.row.max.size=1000000; hive.

2015-03-12 14:24:10 930

原创 hive 表连接操作注意事项

1.hive jion 只支持等值连接2.hive jion目前不支持在on子句中使用谓词or3.on子句中的分区过滤条件在outer join中是无效的,但是在inner join中是可以用的4.hive 中不支持in和not in对于in在hive中可以使用left semi join实现,但是要注意这种方式在select   和where 子句中不能引用右边表的字段例

2015-03-12 11:28:12 2128

原创 hdfs dfs -du -h 输出三列数据的含义

命令 hdfs dfs -du -h   /data/结果 102.3 M  307.0 M  /data/第一列标示该目录下总文件大小第二列标示该目录下所有文件在集群上的总存储大小和你的副本数相关,我的副本数是3 ,所以第二列的是第一列的三倍 (第二列内容=文件大小*副本数)第三列标示你查询的目录

2015-03-12 10:23:09 35379 4

原创 hive 压缩参数

压缩考虑第一压缩率      第二压缩/解压缩时间(cpu开销)第三是否支持切分对以上三个问题说明BZip2的压缩率最高,消耗的cpu资源也最多,支持分割Gzip 的压缩率和压缩速度都还可以,如果磁盘利用率和和I/O开销都要考虑的话,是不错的选择,但是不支持分割LZO和snappy压缩率比请两个要小,但是速度很快        其中Snappy不支持分割

2015-03-09 15:50:29 1764

原创 Hadoop archives 说明

1.创建归档文件(会执行maprreduce)hadoop archive -archivename test.har /test/vot/  /test/har/2.查看归档文件hdfs dfs -ls -R har:///test/har/vot.harhdfs dfs -ls -R har://hdfs-dns:9000/har/vot.har(外部访问)3.说明1创

2015-03-09 15:07:55 552

原创 Eclipse 下搭建Hadoop(2.5.0) 开发环境 YARN

先说一下架构1.Hadoop搭建的是伪分布 版本2.5.02.Hadoop搭建在linux平台下3.Windows8 平台下安装eclipse 通过mapreduce插件链接到linux平台下的hadoophadoop 伪分布配置文件说明 (注意这是linux机器上的,windows上可以将其配置拷贝过来覆盖,也可以不配置)1.core-site.xml

2015-03-08 16:44:12 834

原创 递归批量修改重名文件下的文件名

命令1.将当前目录下的所有以.done结尾的文件重名为以.log结尾 find . -name "*.done"|xargs  -n1 rename ".done" ".log" ?2.将制定的目录/home/hadoop下的所有以.done结尾的文件去掉.done find /home/hadoop/ -name "*.done"|xargs  -n1 rename

2015-03-04 18:24:00 1279

原创 Hive 修改表添加分区(add partition)和 加载数据时添加分区 的区别

假定有hive中有两个表empl_inn(管理表)和empl_ext(外部表),他们都有分区(logdate string);1.对于外部表 empl_ext       alter table empl_ext add partition (logdate=‘2015-02-26’) location ‘hdfs://nameservice1/vod_pb/’;      执行添

2015-02-26 15:17:09 45642 4

原创 离线安装 cloudera manager 5.3.1 和 cdh5.3.1

一 系统环境1.操作系统centOS6.42.cloudera manager 5.3.13.cdh5.3.1官方安装文档 http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_c.htmlcloudera manager 下载地址

2015-02-08 13:36:21 1661

原创 cloudera-scm-agnet 启动报错找不到libpython2.6.so.1.0

1.下载Python-2.6.6.tar.bz2  https://www.python.org/download/releases/2.6.6/2.yum install bzip2-devel (必须,如果不安装,即便编译好python,scm-agent也无法启动)2.tar -xvjf Python-2.6.tar.bz23. ./configure --prefix=/u

2015-02-03 13:27:45 6053 3

原创 windows mysql 忘记root密码,创建新用户登陆

1.关闭mysql服务进入cmd  net stop mysql2.安全模式启动msyqld  --skip-grant-tables2.另外启动一个cmdmsyql -uroot进入msyql3.添加用户use mysql;INSERT INTO user VALUES ('localhost','newuser','password('123456')','

2015-01-08 17:40:30 941

原创 linux 开机启动自己定义的shell命令

1. vi /etc/rc.local2.将命令写入例如mount -t nfs dns:/home/hadoop/share /nfs_share3. chmod +x /etc/rc.d/rc.local这样就可以了

2014-12-25 14:58:35 660

原创 Linux 64位编译hadoop源码

机器:Centos7.0 64bit 软件 hadoop: hadoop-2.5.0-cdh5.2.11.安装Linux 系统包> yum install autoconf automake libtool cmake>yum install  ncurses-devel>yum install openssl-devel>yum install lzo-devel

2014-12-24 14:00:19 624

原创 Hbase数据导入方案

1 利用importTsv将csv文件导入到hbasesimple.csv1,'tom'2,'sam'3,'jerry'命令create 'hbase-tbl-001','cf'bin/hbase org.apache.hadoop.hbase.mapreduce.importTsv -Dimporttsv.separator="," -Dimporttsv.c

2014-12-23 15:50:35 736

原创 Hbase 手动数据迁移方法

1.从源hbase集群中复制出hbase数据库表到本地目录 hdfs dfs -get /hbase/data/default/    (hbase中的每个表在hdfs上都会对应一个文件在上述目录下)2 目标Hbase导入 hdfs dfs -put .......(放到你需要导入数据的集群上/hbase/data/default/ 目录下)3 修复META表hbase hbc

2014-12-23 15:41:01 1241

原创 Hbase 基本shell操作命令

1.创建表(hbase 建立表示要求必须确定列簇)下面建立了一个表名字为scores的表。其中有两个列簇,一个是grade,一个是course;create 'scores','grade','course'2.查看hbase中所有表list3 查看表结构describe ‘scores’4 插入数据向scores表中插入一行,行健是tom,grade的值是5

2014-12-22 14:32:51 868

原创 Linux 查看用户执行过的命令,运行特定历史命令

1 history 查看用户命令2 !3  执行特定历史命令 3表示历史命令编号3 !rpm 执行最后一次以rpm开头的命令改变历史命令显示格式vi  /etc/profileexport HISTTIMEFORMAT="%Y-%m-%d %H:%M:%S "source /etc/profile

2014-12-22 12:08:44 8821

原创 Linux 后台执行命令

拿scp命令举例1 nohup scp -r /home/hadoop/hbase/  master:/home/hadoop/  > /dev/null  2>&1(2>&1 将错误输出重定向到标准输入,这里的标准输入是/dev/null  ,也可以写到某个文件中 )2 Ctrl+z 暂停命令3. bg 后台运行4 ps -ef | grep scp 查看命令是否

2014-12-22 11:58:56 756

原创 Hive 基本操作

需求假设一批文件,内容格式001,192.168.1.101002,198.135.1.236002,156.124.138.9.......其中第一列代表用户uid,第二列代表用户登陆ip。要对这些文件进行分析,计算共有多少人登陆,在一个ip下共有几人登陆,等等hive解决如果你不建立数据库,那么你的表放在默认数据库default中,你加载的数据在hdfs中位置为

2014-12-19 08:56:11 984

原创 Hive 安装配置

1.hive-config.sh 添加export HIVE_HOME=/home/hadoop/hive-0.13.1-cdh5.2.1export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.2.1export JAVA_HOME=/usr/java/jdk1.8.0_202.hive-site.xml (mysql)  

2014-12-18 14:58:33 469

转载 Centos7.0 修改启动级别

systemd使用比sysvinit的运行级别更为自由的target概念作为替代第三运行级:multi-user.target第五运行级:graphical.target#前者是符号链接指向了后面的targetrunlevel3.target -> multi-user.targetrunlevel5.target -> graphical.target

2014-12-18 11:03:18 1221

原创 hadoop HA集群环境配置

这里仅仅列出部分配置文件信息,供自己记录使用。1.core-site.xml hadoop.tmp.dir /home/hadoop/tmp Abase for other temporary directories. fs.defaultFS

2014-12-15 12:43:21 677

原创 ssh通过nfs挂载,创建软连接,实现免密码登录

ssh通过nfs挂载,创建软连接,实现免密码登录,不能登陆原因:1.权限问题你创建的共享文件夹权限是 700共享文件夹里面创建.ssh的权限700.ssh里面authorized_keys 的权限 6442.selinux问题请你确认你也关闭selinux永久关闭selinux方法修改/etc/sysconfig/selinuxSELINUX=disable

2014-12-11 12:53:41 1747

原创 循环发送AJAX请求,变量问题

ajax请求有同步和异步两种方式:1、异步请求是发送请求后不必等待服务器返回就执行后续操作。2、同步请求就是发送请求后必须等待服务器返回结果后才继续执行。ajax函数如下(jquery):

2014-11-18 14:21:28 1675

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除