KNIFE_PAN-CSDN博客

原创 YARN Fair Scheduler 配置

1.yarn-site.xml<property> <name>yarn.resourcemanager.scheduler.class</name> <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value></property><property>

2015-06-08 15:23:41 1796

cdh5 中如果使用spark-sql 1.进入到spak安装目录，进入bin目录下，修改 compute-classpath.sh,CALSSPATH 中加入hive jarCLASSPATH="$CLASSPATH:/opt/soft/BI/cloudera/cm/cm5.3.1/cloudera/parcels/CDH/lib/hive/lib/*"2.在bin目录下执行./hive-sql

2015-05-22 15:27:17 933

原创 Spring-boot web 工程构建，并把maven子项目模块依赖jar打包,笔记

1.对于maven构建spring-boot web工程。pom.xml<?xml version="1.0"?><project xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd" xmlns="http://maven.apache.

2015-05-09 10:48:52 7230

原创 JS 日期格式化扩展Date

用法：(new Date()).Format(“yyyy-MM-dd hh:mm:ss.S”) ⇒ ==> 2006-07-02 08:09:04.423 // 对Date的扩展，将 Date 转化为指定格式的String // 月(M)、日(d)、小时(h)、分(m)、秒(s)、季度(q) 可以用 1-2 个占位符， // 年(y)可以用 1-4 个占位符，毫秒(S)

2015-05-09 10:18:27 928

原创 Ajax 跨域请求资源

第一种解决方案由于Ajax 请求跨域资源需要服务器返回jsonp的格式，所以要对服务器返回的json格式数据封装为jsonp public static String toJSONPString(Object o){ if(o!=null){ HttpServletRequest request = ((ServletRequestAttribute

2015-05-09 10:15:10 819

原创 cdh 运行spark yarn-cluster

1.如果用cdh安装sparn on yarn 直接用集群模式运行spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-memory 2g \ -

2015-04-23 13:22:12 4841

原创 Hive HDF 引用资源文件路径问题

1.UDF中没有引用其他资源文件 Hive UDF 函数，写完后打成jar包。放到指定目录下例如：/home/hadoop/udf/ 并且在该目录下启动hive cli 执行add jar /home/hadoop/udf/timeOffset.jarcreate temporary function timeOffset(time) as 'cn.gitv.analysis.TimeOf

2015-04-17 14:52:06 7139

原创 Hive 表连接查询NullPointerException

2015-04-15 17:48:45,764 ERROR [uber-SubtaskRunner] org.apache.hadoop.hive.ql.exec.MapJoinOperator: Unxpected exception: nulljava.lang.NullPointerException at org.apache.hadoop.hive.ql.exec.MapJoin

2015-04-15 18:08:56 4328

原创 SparkFlumeEvent转换为实际输入字符串

JavaReceiverInputDStream<SparkFlumeEvent> flumeStream = FlumeUtils .createStream(ssc, host, port); flumeStream.flatMap(new FlatMapFunction<SparkFlumeEvent, String>() {

2015-04-15 10:40:56 1617

原创 SparkStreaming+Flume 环境搭建配置

1.JavaFlumeEventCountpackage cn.gitv.bi.log.analysis.spark;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.Function;import org.apache.spark.streaming.Duration;import org

2015-04-15 10:32:28 956

原创 SCALA 安装和 SACLA ECLIPSE PLUGIN安装

SACLA 是基于JAVA虚拟机的所有，只要可以运行JAVA的操作系统，就可以安装SCALA Windows下安装如下 1.下载scalahttp://www.scala-lang.org/download/2.配置环境变量SCALA_HOME=...PATH=.;%SCALA_HOEM%/bin;3.SACLA EClIPSE PLUGIN 安装在线安装– 打开eclipse>help

2015-04-13 18:51:08 754

原创 cloudera cdh sqoop2 加入myqsl 驱动包

下载mysql驱动包http://dev.mysql.com/downloads/file.php?id=454397.解压提取mysql-connector-java-5.1.31-bin.jar把提取的驱动JAR放到你的sqoop-server启动的节点的下面制定的目录下/var/lib/sqoop2/重启sqoop2具体操作参见http://sqoop.apache.org/d

2015-04-10 09:34:34 2725

原创 Java 反射由实体类生产hive或mysql表对应字段

如果一个实体类字段特别多，那么创建对应的RDBMS对应的表会让我感到抓狂，可以利用Java反射特性，生产对应字段 1.创建一个借口，定义一些常量public interface Constants { /**参数默认值*/ public static final String DEFAULT_PARAM_VAL = ""; /**中文字符集*/ public stat

2015-04-03 09:34:26 1331

原创 Hive 表被锁定，无法删除表

如果当hive 执行一个脚本查询的过程中，由于你的脚本进程遇到不可控的原因被杀死，这时你再去删除hive表中你查询关联到的表是无法删除的。你可以使用命令 show locks tablename；查看你的表状态hive> show locks days_album_click_play;OKpb_log@days_album_click_play EXCLUSIVE可以看到此表有一个E

2015-04-03 08:16:43 11500

原创文章标题

Hive 自定 InputFormat 解析 Hadoop MR 产生的SequenceFile 文件注意： Hive 使用的MRV1 1.定义InputFormatpackage cn.gitv.bi.log.analysis.io;import java.io.IOException;import org.apache.hadoop.fs.FileStatus;import org.ap

2015-03-31 18:09:53 557

原创 wget 下载服务器文件

下载制定目录下的文件，下载完成停止，需要制定 --include-directories= 参数wget -r -nd -np --include-directories=20150318 http://10.57.130.67:9188/20150318/

2015-03-17 15:35:36 1477

原创 HIVE 性能调优

限制输出调整 Limit 语句在很多情况下还是会查询所有数据后才返回部分结果的，可以开启Hive的一个配置属性，这样在使用limit时可以对数据进行抽样。 set hive.limit.optimize.enable=true 这个设置的缺点是，你可能永远也查不到你有用的数据。还有两个参数可以控制这个操作 hive.limit.row.max.size=1000000; hive.

2015-03-12 14:24:10 969

原创 hive 表连接操作注意事项

1.hive jion 只支持等值连接2.hive jion目前不支持在on子句中使用谓词or3.on子句中的分区过滤条件在outer join中是无效的，但是在inner join中是可以用的4.hive 中不支持in和not in对于in在hive中可以使用left semi join实现,但是要注意这种方式在select 和where 子句中不能引用右边表的字段例

2015-03-12 11:28:12 2156

原创 hdfs dfs -du -h 输出三列数据的含义

命令 hdfs dfs -du -h /data/结果 102.3 M 307.0 M /data/第一列标示该目录下总文件大小第二列标示该目录下所有文件在集群上的总存储大小和你的副本数相关，我的副本数是3 ，所以第二列的是第一列的三倍（第二列内容=文件大小*副本数）第三列标示你查询的目录

2015-03-12 10:23:09 35638 4

原创 hive 压缩参数

压缩考虑第一压缩率第二压缩/解压缩时间（cpu开销）第三是否支持切分对以上三个问题说明BZip2的压缩率最高，消耗的cpu资源也最多，支持分割Gzip 的压缩率和压缩速度都还可以，如果磁盘利用率和和I/O开销都要考虑的话，是不错的选择，但是不支持分割LZO和snappy压缩率比请两个要小，但是速度很快其中Snappy不支持分割

2015-03-09 15:50:29 1792

原创 Hadoop archives 说明

1.创建归档文件(会执行maprreduce)hadoop archive -archivename test.har /test/vot/ /test/har/2.查看归档文件hdfs dfs -ls -R har:///test/har/vot.harhdfs dfs -ls -R har://hdfs-dns:9000/har/vot.har（外部访问）3.说明1创

2015-03-09 15:07:55 566

原创 Eclipse 下搭建Hadoop（2.5.0）开发环境 YARN

先说一下架构1.Hadoop搭建的是伪分布版本2.5.02.Hadoop搭建在linux平台下3.Windows8 平台下安装eclipse 通过mapreduce插件链接到linux平台下的hadoophadoop 伪分布配置文件说明 (注意这是linux机器上的，windows上可以将其配置拷贝过来覆盖，也可以不配置)1.core-site.xml

2015-03-08 16:44:12 868

原创递归批量修改重名文件下的文件名

命令1.将当前目录下的所有以.done结尾的文件重名为以.log结尾 find . -name "*.done"|xargs -n1 rename ".done" ".log" ?2.将制定的目录/home/hadoop下的所有以.done结尾的文件去掉.done find /home/hadoop/ -name "*.done"|xargs -n1 rename

2015-03-04 18:24:00 1306

原创 Hive 修改表添加分区（add partition）和加载数据时添加分区的区别

假定有hive中有两个表empl_inn(管理表)和empl_ext(外部表),他们都有分区（logdate string）；1.对于外部表 empl_ext alter table empl_ext add partition (logdate=‘2015-02-26’) location ‘hdfs://nameservice1/vod_pb/’; 执行添

2015-02-26 15:17:09 45742 4

原创离线安装 cloudera manager 5.3.1 和 cdh5.3.1

一系统环境1.操作系统centOS6.42.cloudera manager 5.3.13.cdh5.3.1官方安装文档 http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cm_ig_install_path_c.htmlcloudera manager 下载地址

2015-02-08 13:36:21 1687

原创 cloudera-scm-agnet 启动报错找不到libpython2.6.so.1.0

1.下载Python-2.6.6.tar.bz2 https://www.python.org/download/releases/2.6.6/2.yum install bzip2-devel (必须，如果不安装，即便编译好python，scm-agent也无法启动)2.tar -xvjf Python-2.6.tar.bz23. ./configure --prefix=/u

2015-02-03 13:27:45 6089 3

原创 windows mysql 忘记root密码，创建新用户登陆

1.关闭mysql服务进入cmd net stop mysql2.安全模式启动msyqld --skip-grant-tables2.另外启动一个cmdmsyql -uroot进入msyql3.添加用户use mysql；INSERT INTO user VALUES ('localhost','newuser','password('123456')','

2015-01-08 17:40:30 982

原创 linux 开机启动自己定义的shell命令

1. vi /etc/rc.local2.将命令写入例如mount -t nfs dns:/home/hadoop/share /nfs_share3. chmod +x /etc/rc.d/rc.local这样就可以了

2014-12-25 14:58:35 699

原创 Linux 64位编译hadoop源码

机器：Centos7.0 64bit 软件 hadoop: hadoop-2.5.0-cdh5.2.11.安装Linux 系统包> yum install autoconf automake libtool cmake>yum install ncurses-devel>yum install openssl-devel>yum install lzo-devel

2014-12-24 14:00:19 635

原创 Hbase数据导入方案

1 利用importTsv将csv文件导入到hbasesimple.csv1,'tom'2,'sam'3,'jerry'命令create 'hbase-tbl-001','cf'bin/hbase org.apache.hadoop.hbase.mapreduce.importTsv -Dimporttsv.separator="," -Dimporttsv.c

2014-12-23 15:50:35 743

原创 Hbase 手动数据迁移方法

1.从源hbase集群中复制出hbase数据库表到本地目录 hdfs dfs -get /hbase/data/default/ (hbase中的每个表在hdfs上都会对应一个文件在上述目录下)2 目标Hbase导入 hdfs dfs -put .......(放到你需要导入数据的集群上/hbase/data/default/ 目录下)3 修复META表hbase hbc

2014-12-23 15:41:01 1269

原创 Hbase 基本shell操作命令

1.创建表(hbase 建立表示要求必须确定列簇)下面建立了一个表名字为scores的表。其中有两个列簇，一个是grade，一个是course；create 'scores','grade','course'2.查看hbase中所有表list3 查看表结构describe ‘scores’4 插入数据向scores表中插入一行，行健是tom，grade的值是5

2014-12-22 14:32:51 921

原创 Linux 查看用户执行过的命令，运行特定历史命令

1 history 查看用户命令2 !3 执行特定历史命令 3表示历史命令编号3 !rpm 执行最后一次以rpm开头的命令改变历史命令显示格式vi /etc/profileexport HISTTIMEFORMAT="%Y-%m-%d %H:%M:%S "source /etc/profile

2014-12-22 12:08:44 8869

原创 Linux 后台执行命令

拿scp命令举例1 nohup scp -r /home/hadoop/hbase/ master:/home/hadoop/ > /dev/null 2>&1（2>&1 将错误输出重定向到标准输入，这里的标准输入是/dev/null ，也可以写到某个文件中）2 Ctrl+z 暂停命令3. bg 后台运行4 ps -ef | grep scp 查看命令是否

2014-12-22 11:58:56 783

原创 Hive 基本操作

需求假设一批文件，内容格式001,192.168.1.101002,198.135.1.236002,156.124.138.9.......其中第一列代表用户uid，第二列代表用户登陆ip。要对这些文件进行分析，计算共有多少人登陆，在一个ip下共有几人登陆，等等hive解决如果你不建立数据库，那么你的表放在默认数据库default中，你加载的数据在hdfs中位置为

2014-12-19 08:56:11 998

原创 Hive 安装配置

1.hive-config.sh 添加export HIVE_HOME=/home/hadoop/hive-0.13.1-cdh5.2.1export HADOOP_HOME=/home/hadoop/hadoop-2.5.0-cdh5.2.1export JAVA_HOME=/usr/java/jdk1.8.0_202.hive-site.xml (mysql)

2014-12-18 14:58:33 480

转载 Centos7.0 修改启动级别

systemd使用比sysvinit的运行级别更为自由的target概念作为替代第三运行级：multi-user.target第五运行级：graphical.target#前者是符号链接指向了后面的targetrunlevel3.target -> multi-user.targetrunlevel5.target -> graphical.target

2014-12-18 11:03:18 1231

原创 hadoop HA集群环境配置

这里仅仅列出部分配置文件信息，供自己记录使用。1.core-site.xml hadoop.tmp.dir /home/hadoop/tmp Abase for other temporary directories. fs.defaultFS

2014-12-15 12:43:21 710

原创 ssh通过nfs挂载，创建软连接，实现免密码登录

ssh通过nfs挂载，创建软连接，实现免密码登录，不能登陆原因：1.权限问题你创建的共享文件夹权限是 700共享文件夹里面创建.ssh的权限700.ssh里面authorized_keys 的权限 6442.selinux问题请你确认你也关闭selinux永久关闭selinux方法修改/etc/sysconfig/selinuxSELINUX=disable

2014-12-11 12:53:41 1799

原创循环发送AJAX请求，变量问题

ajax请求有同步和异步两种方式：1、异步请求是发送请求后不必等待服务器返回就执行后续操作。2、同步请求就是发送请求后必须等待服务器返回结果后才继续执行。ajax函数如下(jquery)：

2014-11-18 14:21:28 1710

空空如也

空空如也