Mr_Jia_Yuan-CSDN博客

原创 hive beeline 跑历史数据

!/bin/bash #dt1=`date "+%Y-%m-%d"` d=2020-01-01 while [ "$d" != 2020-11-11 ]; do dt2=$d dt1=`date -d"$dt2" "+%Y%m%d"` echo $dt2 echo $dt1 beeline --showHeader=true -u "jdbc:hive2://****:10000/default" -n xxx -p XXX --incremental=true** -f ./.

2020-11-12 20:16:44 487

原创 hive split by “.”； hive 按句点切分

一些特殊字符的切分 > desc function split; > split(str, regex) - Splits str around occurances that match regex > select split('1.3.4.6','.'); +----------------------------+--+ | ["","","","","","","",""] | +----------------------------+--+ > sel.

2020-11-09 10:02:27 833 1

原创用户画像时间衰减函数

import math fo = open("time_delay.txt","w") for x in range(0, 365+1): y = 1/math.exp(0.02 * x) line = str(x)+","+ format(y, '.5f') fo.write(line + "\n") fo.close()

2020-11-06 15:53:54 3537 4

转载 JVM系列:解决JVM最大内存设置问题

你知道JVM内存最大能调多大吗，这里和大家分享一下JVM最大内存方面的内容，Java虚拟机具有一个堆，堆是运行时数据区域，所有类实例和数组的内存均从此处分配。堆是在Java虚拟机启动时创建的。 JVM内存最大能调多大今天分析了当前比较流行的几个不同公司不同版本JVM最大内存，得出来的结果如下：公司JVM版本最大内存(兆)client最大内存(兆)server SUN1.5.

2017-11-25 19:23:47 520

原创 Logstash 导入数据到Elasticsearch

input { jdbc { jdbc_driver_library => "/path_to_mysql/mysql-connector-java-5.1.40.jar" jdbc_driver_class => "com.mysql.jdbc.Driver" jdbc_connection_string => "jdbc:mysql://127

2017-11-25 18:59:32 2256

原创 openCV java（JFrame）实现人脸识别，人脸自动检测，自动保存裁剪后人脸

基于Win10，调用系统摄像头下载opencv 下载地址本文版本为opencv-2413, IDE为idea ; 安装之后将{$opencv}/build/java 下的jar包及对应的dll加载到library 将{$opencv}/sources/data/haarcascades 下面的人脸识别文件放到resources目录下面下面是具体实现：import java.awt.Ev

2017-11-25 18:42:59 4671

翻译 Spark Shuffle过程理解

拿reduceByKey举例：在spark中，数据通常不会为了一个特定的操作而分布在特定的分区partitions。在计算过程中，一个task只会在一个partition分区上执行，因此，为了把所有的数据组织到一个reduce task （例如reduceByKey）中执行，Spark需要执行一个all-to-all操作，该操作需要读取所有partition上key value的值，然后将

2016-03-15 22:30:17 1770

原创 Scala 匿名函数

1. 创建一个匿名函数，用变量res0表示； 2 可将上面的函数写作下面这种形式 3 多个参数的匿名函数 4 没有参数的匿名函数

2016-03-14 21:30:38 1257

翻译 Spark RDD 的创建 & Accumulators

一：scala集合的并行化； val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) 二：从shared filesystem, HDFS, HBase, or any data source offering a Hadoop InputFormat.读取； scala> val distFile

2016-03-14 20:58:57 889

原创 Hbase 与传统关系数据库（RDBMS）的比较

来自：Hadoop权威指南 Hbase是一个分布式的面向列的数据存储系统，通过在HDFS上提供随机读写来解决Hadoop不能处理的问题，Hbase自底层设计开始即聚焦于各种可伸缩性问题：表可以很“高”（数十亿个数据行）；表可以很“宽”（数百万个列）；水平分区并在上千个普通商用机节点上自动复制。严格来说，RDBMS是一个遵循“Codd的12条规则”（Codd's 12 rules 参考：h

2015-11-07 08:52:38 4516

原创 Hive与传统数据库比较

1. 读时模式 vs 写时模式传统数据库是在数据写入数据库的时候对照模式进行检查，因此，这以设计模式被称为“写时模式” （schema on write）而Hive是在读出数据，也就是查询的时候读数据进行检查，这称为“读时模式” （schema on read）。 2。更新、事务及索引 Hive不支持更新（或删除），但支持INSERT INTO，可以向现有表中增加新的行目前H

2015-11-06 21:10:35 1395