自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 文本分类学习

统计学习方法其实就是一个两阶段的解决方案, (1)训练阶段,由计算机来总结分类的规则; (2)分类阶段,给计算机一些它从来没见过的文档,让它分类

2014-09-30 15:35:06 822

原创 about command

1,提交任务命令 spark-submit --class com.gridsum.spark.wd.LogReader --master spark://gs-server-1000:7077 spark-wd-logreader-1.0-jar-with-dependencies.jar /rawdata/wd/ /user/raofengyun/wd_all 101

2014-09-29 10:32:24 489

原创 hbase提交命令

java -cp ".:自己的JAR包的路径:`hbase classpath`" 你的MAIN类一堆参数…

2014-09-26 00:24:40 528

原创 mahout 第一课时

aa

2014-09-26 00:24:36 519

原创 hive命令将hbase数据导出到hive然后到本地

CREATE EXTERNAL TABLE userData(rowkey string,UserId String, ProfileId int,ClientTimeHourPart int,ClientTimeDayOfWeekPart String,ServerTime String,Country String,StateOrProvince String,City String,Long

2014-09-26 00:07:04 1964

原创 SQL过滤数据

select * from pageview where referrerurl like 'weibo.com%/home/%' limit 100

2014-09-17 15:10:17 354

原创 编译AVRO SCHEMA MVN插件

org.apache.avro avro-maven-plugin 1.7.5-cdh5.1.0 generate-sources schema ${project.ba

2014-09-05 10:17:41 1245

原创 phoenix access hbase

java -cp "$HADOOP_HOME/../phoenix/phoenix-4.0.0-incubating/hadoop-1/phoenix-4.0.0-incubating-client.jar:phoenixTest-1.0-SNAPSHOT-jar-with-dependencies.jar"   com.gridsum.aud.phoenixTest.Test

2014-09-04 22:01:49 606

原创 impala access hive table

HADOOP_CLIENT_DIR=/opt/cloudera/parcels/CDH/lib/hadoop/client/   HIVE_LIB_DIR=/opt/cloudera/parcels/CDH/lib/hive/lib   IMPALA_LIB_DIR=/opt/cloudera/parcels/CDH/lib/impala/lib      CLASSPATH=$HIVE_

2014-09-04 22:01:01 595

原创 mapreduce access hive table

$ export HCAT_HOME=/usr/lib/hcatalog $ export HIVE_HOME=/usr/lib/hive $ HCATJAR=$HCAT_HOME/share/hcatalog/hcatalog-core-0.5.0-cdh4.3.0.jar $ HCATPIGJAR=$HCAT_HOME/share/hcatalog/hcatalog-pig-adapter-0

2014-09-04 22:00:02 577

原创 重要网络连接

pom.xml

2014-09-01 23:24:36 432

转载 HBase-0.94新特性

性能相关 读缓存改进: HDFS 将图片和checksum存储在不同的block中的,所以每次我们进行读操作,都需要进行两次磁盘操作(一次读数据文件,一次读checksum所在的文件)。在 HBASE-5074 这个提案中,提出了将checksum存到block 缓存中的想法。在0.94 版本中,这一特性已经是默认开启的了。读文件优化: 在0.94 版本之前,如果一个column fam

2014-09-01 00:39:58 610

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除