2014年09月_天然呆的技术博客

原创文本分类学习

统计学习方法其实就是一个两阶段的解决方案，（1）训练阶段，由计算机来总结分类的规则；（2）分类阶段，给计算机一些它从来没见过的文档，让它分类

2014-09-30 15:35:06 822

原创 about command

1，提交任务命令 spark-submit --class com.gridsum.spark.wd.LogReader --master spark://gs-server-1000:7077 spark-wd-logreader-1.0-jar-with-dependencies.jar /rawdata/wd/ /user/raofengyun/wd_all 101

2014-09-29 10:32:24 489

原创 hbase提交命令

java -cp ".:自己的JAR包的路径:`hbase classpath`" 你的MAIN类一堆参数…

2014-09-26 00:24:40 528

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Country String,StateOrProvince String,City String,Long

2014-09-26 00:07:04 1964

原创 SQL过滤数据

select * from pageview where referrerurl like 'weibo.com%/home/%' limit 100

2014-09-17 15:10:17 354

原创编译AVRO SCHEMA MVN插件

org.apache.avro avro-maven-plugin 1.7.5-cdh5.1.0 generate-sources schema ${project.ba

2014-09-05 10:17:41 1245

原创 phoenix access hbase

java -cp "$HADOOP_HOME/../phoenix/phoenix-4.0.0-incubating/hadoop-1/phoenix-4.0.0-incubating-client.jar:phoenixTest-1.0-SNAPSHOT-jar-with-dependencies.jar" com.gridsum.aud.phoenixTest.Test

2014-09-04 22:01:49 606

原创 impala access hive table

HADOOP_CLIENT_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/client/ HIVE_LIB_DIR=/opt/cloudera/parcels/CDH/lib/hive/lib IMPALA_LIB_DIR=/opt/cloudera/parcels/CDH/lib/impala/lib CLASSPATH=$HIVE_

2014-09-04 22:01:01 595

原创 mapreduce access hive table

$ export HCAT_HOME=/usr/lib/hcatalog $ export HIVE_HOME=/usr/lib/hive $ HCATJAR=$HCAT_HOME/share/hcatalog/hcatalog-core-0.5.0-cdh4.3.0.jar $ HCATPIGJAR=$HCAT_HOME/share/hcatalog/hcatalog-pig-adapter-0

2014-09-04 22:00:02 577

原创重要网络连接

pom.xml

2014-09-01 23:24:36 432

转载 HBase-0.94新特性

性能相关读缓存改进: HDFS 将图片和checksum存储在不同的block中的，所以每次我们进行读操作，都需要进行两次磁盘操作（一次读数据文件，一次读checksum所在的文件）。在 HBASE-5074 这个提案中，提出了将checksum存到block 缓存中的想法。在0.94 版本中，这一特性已经是默认开启的了。读文件优化: 在0.94 版本之前，如果一个column fam

2014-09-01 00:39:58 610

u013494310的专栏