mtj66的博客,交流WX:SpringBreeze1104

一个开发的进阶历程

HBase G1 GC 调优,GC时间缩短为原来的20%左右。

对hbase调优,是很必要的,明显提升响应性能。下面晒下GC调优的成果,是原来CMS GC峰值的10%,历史均值的20%左右 ,调优后GC稳定在200ms左右。 之前是CMS GC不过忘了记录原始的GC配置了。 Parallel GC : Throughput friendly 目前处于维护...

2017-12-19 15:22:00

阅读数 2697

评论数 0

Hbase 热点问题3种解决方案

Hbase 热点问题3种解决方案对hbase进行观察总是有个别的regionserver的request个数远大于其他的region server的请求数量,考虑到数据应该由倾斜,查找了一些方案,无非就是row key 进行hash 。但是仍然有数据是倾斜的,考虑了一下,想了其他的方案,结合reg...

2017-12-04 13:33:53

阅读数 1060

评论数 1

Annaconda 增加删除镜像 channel, 以及其他python包安装解决办法

清华镜像网站:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/ Anaconda 镜像使用帮助 Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算、数据分...

2017-02-25 10:56:27

阅读数 28339

评论数 5

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

Hive文件存储格式 1.textfile textfile为默认格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以的形式序列化到文件中 存储方式:行存储 可分割 压缩 一般选择block压缩 优势是文件...

2017-01-01 22:50:40

阅读数 4656

评论数 0

hive 动态加载数据到指定分区,以及其他hive使用的技巧

hive修改分隔符: alter table tableName set SERDEPROPERTIES('field.delim'='\t');  hive根据数据创建分区,并且动态加载数据到分区 insert into table device...

2016-10-26 13:23:02

阅读数 4836

评论数 0

sparksql 过滤出null值

过滤出空的值 :  by_car_score_id.filter("type is not null")  by_car_score_id.filter("type is null") 下面的方法试了可是不行: df.where(df.co...

2016-10-17 18:00:59

阅读数 5119

评论数 0

dataFrame selectExpr 使用示例

使用udf函数 别名添加一列值  var df_score = df_poi.selectExpr("*", "get_score(speed_up,speed_down,highspeed_count,start_time,end_time,avg_speed) a...

2016-10-11 10:55:58

阅读数 5683

评论数 0

hadoop文件夹大小统计

理解hadoop fsck、fs -dus、-count -q的大小输出 hadoop fsck count dus  很多hadoop用户经常迷惑hadoop fsck,hadoop fs -dus,hadoop -count -q等hadoop文件系统命令输出的大小以及意义。 ...

2016-09-24 10:19:22

阅读数 7299

评论数 1

Sparksql 一个错误:org.apache.spark.sql.AnalysisException: character ' ' not supported here;

遇到如下错误,但是在hive中单独运行,或者是在spark-shell中单独运行的也是毫无问题的,为何偏偏在sparksql中出问题,而且不存在所说的那个 character ’ ’ 。 还有就是我这个临时表本来是采用insert overwrite的也是正确的。 或许应该是,解析有点问题。错...

2016-09-21 16:48:59

阅读数 14919

评论数 0

spark参数调整

直接报错  spark Kryo serialization failed: Buffer overflow 错误 提示需要调整的参数是 spark.kryoserializer.buffer.max 最少是20 默认的显示为0  --conf 'spark.kryoserializer.b...

2016-07-23 16:41:29

阅读数 5747

评论数 0

The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient Caused by: org.datanucleus...

2016-07-06 17:37:05

阅读数 3374

评论数 0

flink 隐式转换

  程序在IDEA中没有报错,但是在编译后报错 Error:(32, 38) could not find implicit value for evidence parameter of type org.apache.flink.api.common.typeinfo.TypeInfor...

2019-02-22 16:33:24

阅读数 6

评论数 0

scala.collection.mutable.WrappedArray$ofRef cannot be cast to java.lang.Double

scala.collection.mutable.WrappedArray$ofRef cannot be cast to java.lang.Double   这个问题,一般是在sparksql中做row转换时候出错,这个时候最好一步步debug,或者是log出来相应的类型,光靠猜测有点难以...

2019-02-21 10:54:34

阅读数 44

评论数 0

sql优化之一次from查询多次insert into操作

优化点:一次map多个reduce,有效节省了map操作. 本脚本目的:实现表字段空值率统计 流程: 1.获取表结构 2,通过excel或者是notepad进行批量转换, 3,将语句格式化成如下的from insert 语句,然后执行就OK了. 4,每个insert语句后面可以跟whe...

2019-02-20 12:05:59

阅读数 7

评论数 0

hive 上卷下钻聚合函数使用

hive 实现多个字段的组合聚合,也可以上卷下钻  Enhanced Aggregation, Cube, Grouping and Rollup Grouping sets, CUBE and ROLLUP operators, and the GROUPING__ID fun...

2019-02-13 14:06:52

阅读数 14

评论数 0

三种join方式: 对驱动表和被驱动表的重新认识

http://www.cnblogs.com/CareySon/archive/2013/01/09/2853094.html  今天想到一些优化的问题,对驱动表重新认识了一下. 浅谈SQL Server中的三种物理连接操作 简介     在SQL Server中,我们所常见的表与表之间的...

2019-02-12 18:42:37

阅读数 21

评论数 0

详解 PostgreSQL explain 查询计划

https://blog.csdn.net/kmblack1/article/details/80761647 详解 PostgreSQL explain 查询计划 2018年06月21日 15:49:57 kmblack1 阅读数:1004 除第一行以外每个->表...

2019-01-29 16:33:15

阅读数 33

评论数 0

权重初始化的几个方法

https://www.imooc.com/article/70763 我们知道,神经网络的训练大体可以分为下面几步: 初始化 weights 和 biases 前向传播,用 input X, weights W ,biases b, 计算每一层的 Z 和 A,最后一层用 sigmoid,...

2019-01-28 11:37:34

阅读数 19

评论数 0

SQL优化(一) Merge Join vs. Hash Join vs. Nested Loop

本文转发自技术世界,原文链接 http://www.jasongj.com/2015/03/07/Join1/   Nested Loop,Hash Join,Merge Join介绍 Nested Loop: 对于被连接的数据子集较小的情况,Nested Loop是个较好的选择。Ne...

2019-01-21 19:48:14

阅读数 30

评论数 0

pgsql 常见的存储过程使用方法

-- 这是使用pl/pgsql语言的风格,   CREATE OR REPLACE FUNCTION function2 () RETURNS setof table1 AS  $body$  DECLARE  result record;  BEGIN  for result in sele...

2019-01-18 11:25:39

阅读数 22

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭