2017年03月_CottonDuke

原创小细节

在secureCRT中，点击【选项】【会话选项】【终端】【仿真】，右边的终端选择linux，在hbase shell中如输入出错时，按住Ctrl+删除键(backspace) 即可删除！

2017-03-30 11:46:31 272

转载 java多线程基础---synchronized与ReentrantReadWriteLock的介绍与比较

(1) 创建一个ReentrantReadWriteLock对象[java] view plain copyprivate ReentrantReadWriteLock rwl = new ReentrantReadWriteLock(); (2)抽取读锁和写锁：[java] view pla

2017-03-29 18:22:18 443

原创 redis 基本命令,6种基本value类型

Redis是一种面向“键/值”对数据类型的内存数据库，可以满足我们对海量数据的读写需求。redis的键只能是字符串redis的值支持多种数据类型： 1：字符串string 2：哈希hash 3：字符串列表list 4：字符串集合set 不重复，无序 5：有序集合sortedset ，不重复，有序 6：HyperLogLog结构（redis2.8.

2017-03-28 23:25:35 7452

原创 hadoop 编程

FileSystemimport java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.net.URI;import org.apache.commons.compress.utils

2017-03-28 22:57:35 340

原创 java json object 转换

org.codehaus.jackson jackson-mapper-asl 1.9.11package com.xximport org.codehaus.jackson.annotate.JsonAutoDetect.Visibility;import org.codehaus.jackson.annotate.JsonMethod;import org.c

2017-03-23 20:28:09 436

原创 java json object相互转换

pom依赖： org.codehaus.jackson jackson-mapper-asl 1.9.11package com.sf.loganalysis.storm;import org.codehaus.jackson.annotate.JsonAutoDetect.Visibility;import org.codehaus.jackson.annotate

2017-03-23 20:26:57 2826

转载 storm 流分组策略(Stream grouping)

配置并行度works jvm:在一个节点可以运行多个jvm进程，一个topology可以包含一个或者多个worker并行的泡在不同的machine,所以一个work progress就是执行一个topology的子集并且一个worker只能对应一个toplogyexectors在一个worker可以包含一个或者多个tasks，但默认每个excutor只执行一个task，一个work

2017-03-23 19:26:15 2918

转载 hbase 编程

import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hbase.client.Connection;import org.apache.hadoop.h

2017-03-21 10:33:43 372

原创找到最近的星期一

#!/bin/bashdiff=9for i in `seq 0 6`dodd=`date -d " ${i} days ago" +%w`if [ $dd == 1 ];then diff=$ibreakfidonemonday=`date -d "${diff} days ago" '+%Y-%m-%d'`echo $monday

2017-03-14 20:19:13 371

原创 liunx命令

1 用top命令筛选出hadoop进程 top - 00:08:27 up 15 days, 2:51, 2 users, loadaverage: 0.04, 0.07, 0.09Tasks: 251 total, 1 running, 250 sleeping, 0 stopped,0 zombie%Cpu(s): 0.5 us, 0.3 sy, 0.0 ni, 99.2 id,

2017-03-13 19:46:12 438

转载 Spark Rdd coalesce()方法和repartition()

coalesce()方法和repartition()都是对RDD重新分区的函数coalesce(numPartitions: Int, shuffle: Boolean = false)coalesce(1200,shuffle=true)如果是生成一个窄依赖的结果，那么不会发生shuffle。比如：1000个分区被重新设置成10个分区，这样不会发生sh

2017-03-09 16:22:36 1064

原创 hive 安装

下载hive：http://hive.apache.org/

2017-03-08 11:57:42 261

原创 date

date "-d 1 days 2017-03-01" +%Y%m%d 输出 20170302

2017-03-07 19:47:34 270

原创 eclipse 不能启动

Failed to create the Java Virtual Machine修改eclipse.ini，把标红的数字缩小到原来的0.5倍。--launcher.XXMaxPermSize128M-showsplashorg.eclipse.platform--launcher.XXMaxPermSize256m

2017-03-07 16:40:41 249

原创分词器

pom: com.janeluo ikanalyzer 2012_u6javacode:import java.io.IOException;import java.io.StringReader;import org.wltea.analyzer.core.IKSegmenter;import org.wltea.an

2017-03-07 13:49:52 407

原创 java splite

“123,,”.split(",").length = 3“123,,”.split(",",-1).length =5-1表示不限制长度

2017-03-06 22:33:01 641

转载 hadoop yarn .fair.FairScheduler

由于yarn只能使用一种调度器，所以要想使用Fair Scheduler首先要在yarn-site.xml中将配置参数yarn.resourcemanager.scheduler.class 设置为org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler。 Fair Scheduler的配置选项包括两部

2017-03-06 14:31:54 609

转载 spark 基础

Spark Application中不同的Action可以触发不同的Job（通过sc.runJob方法）,也就是说一个Application中可以有很多个Job，每个Job是由一个或者多个Stage构成的，后面的Stage依赖于前面的Stage，也就是说只有前面依赖的Stage计算完毕后，后面的Stage才会运行。Excutor是真正执行task的进程TaskSet

2017-03-06 13:37:29 430

原创 sqoop基础知识以及sqoop抽到mysql

脚本 hdfs抽到mysql 在从mysql等关系型数据库中导入数据到hdfs后会发现原来在mysql中为NULL的字段, 到hive后NULL值都变成了字段串'null'。在导入的时候加上以下两个参数就可以解决：--null-string '\N' --null-non-string '\N' 这是因为，在hive里面。NULL用N来

2017-03-06 11:32:58 1213

原创 linux ssh出现问题

报错：java.net.UnknownHostException: centos1.novalocal: centos1.novalocal ，这是dns解析出错，不认识centos1.novalocal这个主机名修改/etc/hosts文件如果这个主机名是本机的名称，则添加127.0.0.1 主机名 localhost.localdomain localhost或是再添加一条

2017-03-02 20:25:41 1923

CottonDuke的博客