自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 收藏
  • 关注

原创 Spark SQL运行 过程 抄的别人的,记录 学习

抄的别人的,觉得写的特别好 val FILESOURCE_TABLE_RELATION_CACHE_SIZE = buildStaticConf("spark.sql.filesourceTableRelationCacheSize")org.apache.spark.sql.catalyst.catalog.SessionCatalog#tableRelatio...

2018-05-13 23:07:43 467

原创 thriftserver log4j.properties 生效

/home/isuhadoop/spark2/sbin/start-thriftserver.sh --driver-class-path /home/isuhadoop/ark_data_bin/jar/fangzhou-nbdata-stream-1.0.jar:/home/isuhadoop/spark2/conf/hbase-site.xml:/home/isuhadoop/spark2/...

2018-04-09 11:46:02 269

原创 udaf 返回的 子属性

udaf 返回的 子属性spark.sql("select createCrowdHllc(uuid,tmp_id,'crowdid_appid').uuiduv from h5 ").show(10)package cn.analysys.udf.crowdimport cn.analysys.batch.userprocess.HbaseInit...

2018-03-20 13:22:46 195

原创 spark datasource

DataFrameWriterformatval cls = DataSource.lookupDataSource(source, df.sparkSession.sessionState.conf)private var source: String = df.sparkSession.sessionState.conf.defaultDataSourceNam...

2018-03-16 16:36:56 1612

原创 亲情的矛盾都是因为爱而化解 写给17 岁的你

>跟你说一个好玩的事情 。 刚刚我们一家三个也都在吵架 ,刚开始是我和我女儿吵,她说我不应在她高兴的时候说她的缺点,吵着吵着我和我老婆开始吵。最后发现我们为什么吵,都不重要了,而是觉得对方不讲道理,觉得对方态度不对,对方不理解自己而生气。>>你还记得过年那天,你和大毛哥讨论的那个问题吗?存在即合理,而这个理,每个人的身份不同,诉求不同,看法就不同。自然界的规律有他的客观性,但是这理在每个...

2018-03-12 09:31:06 263

原创 如何 map 端 Join。

Hive 中 修改表的 rawDataSize = 1 14: jdbc:hive2://ark3:9994> alter table app_uuid_info_test set tblproperties(rawDataSize=1)14: jdbc:hive2://ark3:9994> ;HBASE 表是不会根新的所有手工指点这个 阀值 set spark.s...

2018-03-04 19:31:36 961

原创 spark thrift server 修改

org.apache.spark.sql.hive.thriftserver.server.UdfLoadUtilspackage org.apache.spark.sql.hive.thriftserver.serverimport org.apache.spark.SparkFilesimport org.apache.spark.sql.SparkSessionimp...

2018-03-04 12:58:11 423

原创 hive hbase thriftserver run

正确方法 : 0\拷贝对应目录到 spark2 jars -rw-r--r--. 1 root root 1396867 3月 2 23:19 hbase-client-1.1.2.2.6.1.0-129.jar-rw-r--r--. 1 root root 575960 3月 2 23:20 hbase-common-1.1.2.2.6.1.0-129.ja...

2018-03-03 15:13:14 130

原创 论过年

你是不是说越长越大,过年就越没年味,与其这样,你还不如试着走走。 本人已有三年只给几个固定的亲戚拜年,每年除了抱怨只剩抱怨,左右不过是想显得自己与众不同,其实想想年味的增长真的看自己,说什么不想给谁谁谁拜年,只不过是“懒”,说和谁没感情,其实就是自己太空虚。 与其说不想去拜年,可以逼逼自己,你会发现,亲戚还是那个亲戚,...

2018-02-20 17:44:43 163

原创 scala package

#scala 打包 mvn clean scala:compile compile packagemvn clean scala:compile compile package -Dmaven.test.skip=true -Ptest

2018-01-25 09:48:35 124

原创 hive storage

hive> show create table test_parquet; OK CREATE TABLE `test_parquet`( `name` string, `age` int) ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'...

2018-01-24 14:34:46 475

原创 SET key=value commands using SQL. spark parquet

ConfigurationConfiguration of Parquet can be done using the setConf method on SparkSession or by running SET key=value commands using SQL.Property Name Default Meaningspark.sql.parquet.binaryA...

2018-01-24 12:18:57 147

原创 spark sql parquet 格式异常 修改Jar版本 parquet-hadoop-bundle-1.6.0

spark sql parquet 格式异常org.apache.hive.service.cli.HiveSQLException: java.lang.NoClassDefFoundError: parquet/hadoop/ParquetOutputFormat修改Jar-rw-r--r-- 1 root root 2796935 Apr 2 2017 pa...

2018-01-24 00:45:14 851

原创 SPARK SERVER

sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrif...

2018-01-23 22:15:22 499

原创 driver class

sbin/start-thriftserver.sh --driver-class-path $CLASSPATH:/usr/hdp/current/spark2-client/sparkudf.jar:/usr/hdp/current/hadoop-client/hadoop-common-2.7.3.2.6.0.3-8.jar --hiveconf hive.server2.thrift...

2018-01-21 22:11:34 958

原创 kakfa offset

package cn.analysys.stream.stateimport java.nio.ByteBufferimport cn.analysys.meta.MetaMapInfoimport kafka.serializer.StringDecoderimport org.apache.spark.SparkConfimport org.apache.spark...

2018-01-01 22:08:05 143

原创 hllc 不同M 的 小基数的误差率

结论: testHllcError(10, tt) 31 开始出现误差 testHllcError(11, tt) 33 开始出现误差 testHllcError(13, tt) 42 开始出现误差 testHllcError(14, tt) 100 开始出现误差package hllctesti...

2017-12-22 14:20:20 487

原创 基数预估算法 错误率验证

package hllctestimport java.utilimport org.scalatest.{FlatSpec}import org.spark.sqludf.HLLCounterimport scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scal...

2017-11-25 16:32:11 235

原创 spark thrift server 调试

spark-hive-thriftserver 本地调试1 再加入 maven2 加入 spark/jars 下面的包起 hivethrift Server 类 , 会出现一个 找不到 xml .elelement 类的 问题。 1 要先加入 spark/jars 下面的包 2 再加入 maven ,就 OK , 估计是包冲突。 ...

2017-10-20 15:50:05 319

原创 spark SQL conf

org.apache.spark.sql.internal.SQLConforg.apache.spark.sql.hive.HiveUtils

2017-10-18 14:36:54 623

原创 java 死锁 ,内存问题 分析

jstack -l pid/opt/soft/jdk/bin/jstat -gcutil 124485 1000 1000/opt/soft/jdk/bin/jmap -dump:format=b,file=124485.dump 124485/opt/soft/jdk/bin/jmap -histo 124485

2017-10-17 10:50:38 183

原创 thriftServer proxy

sudo yum install haproxy 257 yun -ql haproxy 258 rpm -ql haproxy 259 cat /share/doc/haproxy-1.5.18/haproxy.cfg 260 cat /usr//share/doc/haproxy-1.5.18/haproxy.cfg 261 top 262 m...

2017-10-16 14:21:33 243

原创 newExecuteStatementOperation single session

var udfNotInited = true override def newExecuteStatementOperation( parentSession: HiveSession, statement: String, confOverlay: JMap[String, String], async: Boolean...

2017-10-16 09:52:57 137

原创 hive spark conf

CREATE TABLE org_userbehavior_all_yunzhi(user_id Int,event_time bigint,behivior_id SMALLINT,behivior_name String,behivior_pop String,record_date String)ROW FORMAT DELIMITED FIELDS ...

2017-09-26 17:44:03 461

原创 yarn spark

--master yarn --deploy-mode client --num-executors 4 --executor-memory 6g --executor-cores 3 --conf spark.default.parallelism=40 --conf spark.sql.shuffle.partitions=20

2017-09-19 14:08:36 80

原创 get day

def timeDayNow() = { var nowMis = timeNow() nowMis - ((nowMis + 28800l) % 86400) }

2017-09-19 08:41:47 69

原创 test code 09-18-2

object FunnelUtil { var gson: Gson = new GsonBuilder().create val maxFunnelLength = 10 var beginTimestamp = 0 var eventLength = 0 var eventMap : mutable.HashMap[Short,Byte] = null ...

2017-09-18 18:47:11 103

原创 交流 code 09-18

object DataProcess extends App { val spark = SparkSession .builder() .appName("UserBehiviorToHHDataPartition") .getOrCreate() val dataCollection = spark.sparkContext.textFile("....

2017-09-18 18:45:41 136

原创 mvn + scala support

maven-compiler-plugin 1.8 1.8 UTF-8 ...

2017-09-15 10:00:06 100

原创 thriftserver

export SPARK_CONF_DIR=/home/yunzhi.lyz/spark/spark220/confspark-default.conf spark.yarn.jars hdfs:/app/jars/*.jar # hdfs jar, 每次 submit ,如果 spark/jars 下面 jar 和 HDFS 上一样,用 HDFS上的,优先用 driver 上...

2017-09-14 19:47:17 207

原创 THREAD TEST

val THREAD_POOL_SIZE = 10 val THREAD_POOL = Executors.newScheduledThreadPool(THREAD_POOL_SIZE);THREAD_POOL.scheduleWithFixedDelay(new Runnable() { def run() { otsQueueProcess ...

2017-09-12 18:07:57 180

原创 thriftserver dynamicallocation

./sbin/start-thriftserver.sh --hiveconf hive.server2.thrift.port=9998 --hiveconf hive.server2.thrift.bind.host=ip --master yarn --deploy-mode client --conf spark.shuffle.service.enabled=true --conf s...

2017-09-08 14:41:28 96

原创 json

val gson: Gson = new GsonBuilder().create def jsonToMap(jsonstring: String): java.util.Map[String, String] = { val typeOfHashMap: Type = new TypeToken[java.util.Map[String, String]]() { ...

2017-09-07 10:21:46 64

原创 test code2

package org.test.udfimport com.google.gson.{Gson, GsonBuilder}import org.apache.spark.sql.Rowimport org.apache.spark.sql.api.java.UDF2import org.apache.spark.sql.expressions.{MutableAggregat...

2017-09-03 13:45:18 124

原创 test code

def taskcal(data:Array[(String,Long)],rt:Array[String],wd:Int):Array[Boolean]={ val result = Array.fill[Boolean](rt.length)(false) val sortData = data.sortBy(_._2) val indexArrayLength...

2017-08-24 17:52:17 527

原创 struct streaming SQL udf udaf

spark aggregator class HllcdistinctByte extends Aggregator[Row, HLLCounter, Array[Byte]] { // A zero value for this aggregation. Should satisfy the property that any b + zero = b ...

2017-08-22 11:50:26 188

原创 pipiline tf token

import org.apache.spark.ml.{Pipeline, PipelineModel}import org.apache.spark.ml.classification.LogisticRegressionimport org.apache.spark.ml.feature.{HashingTF, Tokenizer}import org.apache.spark.m...

2017-08-16 18:29:24 247

原创 struct streaming SQL udf udaf

object StructuredNetworkWordCount { def main(args: Array[String]) { if (args.length < 2) { System.err.println("Usage: StructuredNetworkWordCount ") System.exit(1) } ...

2017-08-15 18:06:55 151

原创 spark , jar

cat conf/spark-defaults.confspark.yarn.jars hdfs:/app/jars/*.jar

2017-08-15 16:48:11 112

原创 curreying function

benchmark2("hllc")(10000000)(hcclcodeanddecode2) benchmark("hllc")(10000000)(hcclcodeanddecode) def hcclcodeanddecode() :Unit = { val hllc = new HLLCounter(14) hllc.add("ads...

2017-08-09 15:27:08 102

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除