- 博客(12)
- 收藏
- 关注
原创 文本分类学习
统计学习方法其实就是一个两阶段的解决方案, (1)训练阶段,由计算机来总结分类的规则; (2)分类阶段,给计算机一些它从来没见过的文档,让它分类
2014-09-30 15:35:06 822
原创 about command
1,提交任务命令 spark-submit --class com.gridsum.spark.wd.LogReader --master spark://gs-server-1000:7077 spark-wd-logreader-1.0-jar-with-dependencies.jar /rawdata/wd/ /user/raofengyun/wd_all 101
2014-09-29 10:32:24 489
原创 hive命令将hbase数据导出到hive然后到本地
CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Country String,StateOrProvince String,City String,Long
2014-09-26 00:07:04 1964
原创 SQL过滤数据
select * from pageview where referrerurl like 'weibo.com%/home/%' limit 100
2014-09-17 15:10:17 354
原创 编译AVRO SCHEMA MVN插件
org.apache.avro avro-maven-plugin 1.7.5-cdh5.1.0 generate-sources schema ${project.ba
2014-09-05 10:17:41 1245
原创 phoenix access hbase
java -cp "$HADOOP_HOME/../phoenix/phoenix-4.0.0-incubating/hadoop-1/phoenix-4.0.0-incubating-client.jar:phoenixTest-1.0-SNAPSHOT-jar-with-dependencies.jar" com.gridsum.aud.phoenixTest.Test
2014-09-04 22:01:49 606
原创 impala access hive table
HADOOP_CLIENT_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/client/ HIVE_LIB_DIR=/opt/cloudera/parcels/CDH/lib/hive/lib IMPALA_LIB_DIR=/opt/cloudera/parcels/CDH/lib/impala/lib CLASSPATH=$HIVE_
2014-09-04 22:01:01 595
原创 mapreduce access hive table
$ export HCAT_HOME=/usr/lib/hcatalog $ export HIVE_HOME=/usr/lib/hive $ HCATJAR=$HCAT_HOME/share/hcatalog/hcatalog-core-0.5.0-cdh4.3.0.jar $ HCATPIGJAR=$HCAT_HOME/share/hcatalog/hcatalog-pig-adapter-0
2014-09-04 22:00:02 577
转载 HBase-0.94新特性
性能相关 读缓存改进: HDFS 将图片和checksum存储在不同的block中的,所以每次我们进行读操作,都需要进行两次磁盘操作(一次读数据文件,一次读checksum所在的文件)。在 HBASE-5074 这个提案中,提出了将checksum存到block 缓存中的想法。在0.94 版本中,这一特性已经是默认开启的了。读文件优化: 在0.94 版本之前,如果一个column fam
2014-09-01 00:39:58 610
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人