mtj66的博客,交流WX:SpringBreeze1104

一个开发的进阶历程

排序:
默认
按更新时间
按访问量

HBase G1 GC 调优,GC时间缩短为原来的20%左右。

对hbase调优,是很必要的,明显提升响应性能。下面晒下GC调优的成果,是原来CMS GC峰值的10%,历史均值的20%左右 ,调优后GC稳定在200ms左右。 之前是CMS GC不过忘了记录原始的GC配置了。 Parallel GC : Throughput friendly 目前处于维护...

2017-12-19 15:22:00

阅读数:1749

评论数:0

Hbase 热点问题3种解决方案

Hbase 热点问题3种解决方案对hbase进行观察总是有个别的regionserver的request个数远大于其他的region server的请求数量,考虑到数据应该由倾斜,查找了一些方案,无非就是row key 进行hash 。但是仍然有数据是倾斜的,考虑了一下,想了其他的方案,结合reg...

2017-12-04 13:33:53

阅读数:724

评论数:1

Annaconda 增加删除镜像 channel, 以及其他python包安装解决办法

清华镜像网站:https://mirrors.tuna.tsinghua.edu.cn/help/anaconda/Anaconda 镜像使用帮助Anaconda 是一个用于科学计算的 Python 发行版,支持 Linux, Mac, Windows, 包含了众多流行的科学计算、数据分析的 Py...

2017-02-25 10:56:27

阅读数:23719

评论数:4

Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

Hive文件存储格式 1.textfile textfile为默认格式 存储方式:行存储 磁盘开销大 数据解析开销大 压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以的形式序列化到文件中 存储方式:行存储 可分割 压缩 一般选择block压缩 优势是文件...

2017-01-01 22:50:40

阅读数:4287

评论数:0

hive 动态加载数据到指定分区,以及其他hive使用的技巧

hive修改分隔符: alter table tableName set SERDEPROPERTIES('field.delim'='\t');  hive根据数据创建分区,并且动态加载数据到分区 insert into table device...

2016-10-26 13:23:02

阅读数:4407

评论数:0

sparksql 过滤出null值

过滤出空的值 :  by_car_score_id.filter("type is not null")  by_car_score_id.filter("type is null") 下面的方法试了可是不行: df.where(df.co...

2016-10-17 18:00:59

阅读数:4635

评论数:0

dataFrame selectExpr 使用示例

使用udf函数 别名添加一列值  var df_score = df_poi.selectExpr("*", "get_score(speed_up,speed_down,highspeed_count,start_time,end_time,avg_speed) a...

2016-10-11 10:55:58

阅读数:5275

评论数:0

hadoop文件夹大小统计

理解hadoop fsck、fs -dus、-count -q的大小输出 hadoop fsck count dus  很多hadoop用户经常迷惑hadoop fsck,hadoop fs -dus,hadoop -count -q等hadoop文件系统命令输出的大小以及意义。 ...

2016-09-24 10:19:22

阅读数:6312

评论数:1

Sparksql 一个错误:org.apache.spark.sql.AnalysisException: character ' ' not supported here;

遇到如下错误,但是在hive中单独运行,或者是在spark-shell中单独运行的也是毫无问题的,为何偏偏在sparksql中出问题,而且不存在所说的那个 character ’ ’ 。 还有就是我这个临时表本来是采用insert overwrite的也是正确的。 或许应该是,解析有点问题。错...

2016-09-21 16:48:59

阅读数:12464

评论数:0

hbase filter 自定义Comparator

在此先道歉,先前值做了标题,没来得及贴干货在博客,对不住那些提前进来的人,发现访问量较多立马更新博客,在此奉上。这个自定义的Comparator也是看了好多资料,此处是基于cdh-hbase1.2.0 分享自定义hbase filter全过程(此处的Comparator是针对SingleColum...

2016-09-18 15:12:40

阅读数:3383

评论数:3

spark参数调整

直接报错  spark Kryo serialization failed: Buffer overflow 错误 提示需要调整的参数是 spark.kryoserializer.buffer.max 最少是20 默认的显示为0  --conf 'spark.kryoserializer.b...

2016-07-23 16:41:29

阅读数:5561

评论数:0

The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient Caused by: org.datanucleus...

2016-07-06 17:37:05

阅读数:3265

评论数:0

sudo easyinstall pip报错 openssl版本问题

curl 'https://bootstrap.pypa.io/get-pip.py' > get-pip.py sudo python get-pip.py   sudo easy_install pip

2018-10-22 22:44:22

阅读数:9

评论数:0

使用sklearn做特征工程

1 特征工程是什么?   有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:   特征处...

2018-09-17 11:43:05

阅读数:39

评论数:0

Python-matplotlib统计图之箱线图漫谈

https://www.jianshu.com/p/b2f70f867a4a 箱线图,又称箱形图(boxplot)或盒式图,不同于一般的折线图、柱状图或饼图等传统图表,只是数据大小、占比、趋势等等的呈现,其包含一些统计学的均值、分位数、极值等等统计量,因此,该图信息量较大,不仅能够分析不同类别数...

2018-08-22 07:58:23

阅读数:154

评论数:0

箱线图概念

箱线图概念  https://blog.csdn.net/kevinelstri/article/details/52937236       箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。        计算过程: (1)计算上四分位...

2018-08-17 10:22:36

阅读数:110

评论数:0

legend标注 annotation标注 tick 能见度使用

# coding=utf-8 # https://blog.csdn.net/changzoe/article/details/78841152 """ 1. legend 标注 2. annotation 标注 3. tick 能见度 &...

2018-08-16 20:09:02

阅读数:52

评论数:0

Matplotlib绘图和可视化

Matplotlib绘图和可视化 Matplotlib绘图和可视化 matplotlib API 入门 Figure和Subplot 颜色标记和线型 刻度标签和图例 注解以及在Subplot上绘图 将图表保存到文件   matplotlib API 入门 绘图是数...

2018-08-14 14:39:43

阅读数:48

评论数:0

odps正则抽取省份以及城市

在odps中使用方式如下 。 -- select 1, -- case when length(regexp_extract('上海市浦东新区西门路588弄-39-~42号','(.+省|.+自治区)(.+市)',1))=0  -- then regexp_extract('上海市浦东新区西门路...

2018-08-14 11:25:59

阅读数:117

评论数:2

Lasso回归算法: 坐标轴下降法与最小角回归法小结

http://www.cnblogs.com/pinard/p/6018889.html    本文将用一个例子来讲述怎么用scikit-learn和pandas来学习Ridge回归。 1. Ridge回归的损失函数     在我的另外一遍讲线性回归的文章中,对Ridge回归做了一些介绍,以...

2018-08-05 22:10:53

阅读数:67

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭