自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rav009的专栏

Python SQL ETL .net 数据挖掘

原创 uwsgi + webpy 部署教程

uwsgi安装: yum install uwsgi-plugin-python INI示例: [uwsgi] http-socket=:9090 plugin=python wsgi-file=/home/fr-renjie.wei/selfquerydlk/index_wsgi.py...

2020-05-06 19:25:18 35 0

原创 Zeppelin 实现 iframe 分享的相关问题

Zeppelin制作的图标可以生成 iframe 进行分享,但是在实践过程中会遇到几个坑。 1. X-Frame-Options 参考https://zeppelin.apache.org/docs/0.7.3/security/http_security_headers.html 修改ze...

2020-04-20 11:08:04 67 0

原创 Apache Zeppelin 的 shiro.ini 简单配置说明

shiro 本身也是一个apache项目。 shiro.ini 位于 Zeppelin 的 conf 文件夹下。 [users]segment 配置用户名密码和role [roles] segment 配置roles 如果shiro 和 LDAP或者window AD有关联,可以在ro...

2020-02-10 16:55:55 174 0

原创 Kubernetes (K8S) 学习笔记

Kubernetes 以下简称 k8s,是类似hadoop中yarn的存在,对大规模集群进行创建、删除、升级、扩容的一层组件。 微软Azure官方的教程:链接: https://pan.baidu.com/s/1AM6eq80Y72TuVF1yFXS5CQ 提取码: j363 基本元素: ...

2020-02-05 23:21:33 77 0

转载 spark 运行关键参数

1.num-executors 参数说明: 该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话...

2020-01-02 18:11:20 33 0

原创 azcopy linux 安装使用说明

azcopy 有过一次大的命令行接口更新: 7.x的版本 命令形如: azcopy --source .... --destination ... 10.x的版本 命令形如:azcopy copy 10.x的版本有子命令 安装说明: wget -O azcopy.tar.gz ht...

2020-01-02 12:15:52 263 0

原创 spark 运行 xgboost 脱坑记

坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse...

2019-12-30 18:01:47 111 0

转载 Spark Xgboost 分布式运行原理

参考xgboost官网文章:https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training...

2019-12-26 14:43:10 83 0

原创 使用 pyarrow 将parquet转成spark能用的parquet

最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢...

2019-12-06 18:43:51 283 0

原创 spark query hive and save as libsvm

以下示例代码使用 spark 查询 hive并把结果存储为 libsvm 格式: from pyspark import SparkConf,SparkContext from pyspark.sql import HiveContext hc = HiveContext(sc) df...

2019-11-07 14:46:14 195 0

原创 CDH 下 impala-shell 的使用 (输出csv, 中文ascii错误)

使用impala-shell 导出csv数据的命令行: impala-shell -i impalad.server -k --output_delimiter="," -B -f query.file -o output.csv 中文乱码问题: UnicodeEn...

2019-10-23 11:06:54 116 0

原创 机器学习中计算优化的 Ring AllReduce

参考这篇文章: https://blog.csdn.net/dpppBR/article/details/80445569 谈一下我的理解,在GPU的机器学习过程中,传统的做法有类似MapReduce的地方,把数据分成若干个小块,每个小块在一个GPU上训练(Map),然后把训练得到的神经网络参...

2019-10-16 11:12:32 48 0

转载 大型系统的Redis性能优化

本文为转载: https://blog.csdn.net/vcbin/article/details/53941682 问题描述 系统背景:大型线上Java服务集群(活跃用户数上千万),业务重度使用Redis存储个管理Session,业务并发量>1WQPS,基本上每个请求都需要访问...

2019-10-11 18:03:25 36 0

原创 xgboost(1.0) yarn(附CDH 5.14的个人心得)

个人心得(CDH5.14,心得是对下文转载步骤的补充): CDH5.14的config.mk config.mk的配置要改成如下: USE_HDFS = 1 HDFS_LIB_PATH = /home/user/xgboost/xgboost-package/libhdfs/lib HAD...

2019-09-05 22:54:04 79 0

转载 kerberos的tgt时间理解

之前在impala集成kerberos时,遇到了时间相关的问题,当时没有做充分的测试,对某些理解有些问题(http://caiguangguang.blog.51cto.com/1652935/1381323),今天正好做了下测试,总结如下: 1.klist中expires以及renew unt...

2019-09-03 18:00:25 260 0

原创 OpenWrt 双s插件 bash代码研读

Project git url: https://github.com/ss/openwrt-ss 包含 ss-{local,redir,tunnel} 三个可执行文件 默认启动 ss-local 建立本地 SOCKS 代理 ss-libev-spec 为针对 OpenWrt 路由器的优化版本包含...

2019-09-01 20:29:54 2410 0

原创 在CDH 上 调通 Zeppelin 与 Spark

坑点: CDH的spark home其实在 /opt/cloudera/parcels/SPARK2-2.1.0.cloudera2-1.cdh5.7.0.p0.171658/lib/spark2/bin 一定要找那个有spark-class.sh文件的目录。spark-submit.sh其实...

2019-08-28 19:24:58 84 0

原创 Windows 上创建MIT Kerberos票据

安装完MIT Kerberos的客户端后,krb5的目录是一个隐藏的目录,这点很恶心 Setting Up the Kerberos Configuration File Settings for Kerberos are specified through a configuration...

2019-08-19 11:30:27 516 0

原创 Kafka 命令行操作

CDH 的 kafka 命令脚本安装目录: /opt/cloudera/parcels/KAFKA-2.2.0-1.2.2.0.p0.68/lib/kafka/bin List Topics: ./kafka-topics.sh --zookeeper 172.16.26.4:2181/...

2019-07-10 15:12:01 259 0

原创 Redis 杂记(安装,conf,还原rdb,查看key过期时间)

Redis有两个linux和windows两个版本,截至本文发表时,linux是5.05,而windows的版本不是官方的,版本为3.2。 这两个版本的redis的dump.rdb文件并不兼容。 Linux的redis安装:下载官网的压缩包,tar xzvf 解压,cd进入src目录,make...

2019-06-26 13:32:18 1277 0

转载 系统吞吐量(TPS)、用户并发量、性能测试概念和公式

转自:http://www.ha97.com/5095.html PS:下面是性能测试的主要概念和计算公式,记录下: 一.系统吞度量要素: 一个系统的吞度量(承压能力)与request对CPU的消耗、外部接口、IO等等紧密关联。 单个reqeust对CPU消耗越高,外部系统接口、I...

2019-06-22 23:23:44 176 0

原创 Spark & Jupyter Notebook

In[3]: import pyspark from pyspark import SparkContext, SparkConf from pyspark.sql import SparkSession sparkconf = SparkConf().setAppName("my...

2019-05-29 18:42:00 78 0

原创 Pentaho Kettle 8.1 使用 Mysql 8.0 开启 Reposity 模式

Mysql 8.1 驱动放到kettle的lib目录。 在kettle安装目录,simple-jndi目录下,编辑 jdbc.properties 文件加入mysql的配置项: MYSQL8_DB/type=javax.sql.DataSource MYSQL8_DB/driver=com....

2019-04-30 16:13:53 604 0

原创 安全库存公式的解析

安全库存公式: 在计算安全库存公式时,其实我们面对的是两个正态分布: 1. 供应周期的正态分布 2. 需求的正态分布 安全库存就是在这两个正态分布的上下浮动过程中能覆盖一定供应水平的一个标准差。 举例来说,标准正态分布的x取值范围在(-1.96,1.96)之间的时候,能覆盖95%的情...

2019-04-22 10:12:49 1855 0

转载 kaggle竞赛: 沃尔玛销量预测

竞赛地址: https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting 第一名方案: https://www.kaggle.com/c/walmart-recruiting-store-sales-forecas...

2019-02-28 18:06:25 2569 0

原创 python2/python3 连接 hive/impala 的问题汇总

'TSocket' object has no attribute 'isOpen bug:https://github.com/cloudera/impyla/issues/268 'TSaslClientTransport' object h...

2019-02-21 18:20:12 2472 0

原创 anaconda python 连 impala (选择正确的anaconda版本, bug修复) & linux python3装 jupyter

  Windows 上的安装  截至目前2019/2/20 不要选python3.7版本对应的anaconda, 因为在python3.7 "async" 变成了一个关键词, 和python访问impala的库impyla有冲突, 建议选python3.5对应的anac...

2019-02-20 18:01:10 402 0

原创 Redis bgsave & setnx & zset

bgsave & save redis的数据库备份命令, 区别是阻塞: save会阻塞主线程, 锁定当前内存中的数据库写入磁盘, save期间redis无法处理外部命令, 直到写入完成 bgsave也会阻塞主线程, 只不过阻塞时间短一点, 它的逻辑是先把当前内存数据库复制一份...

2019-02-12 10:40:36 116 0

原创 impala 更新元数据 以及 用impala对复杂类型的列 查询

impala是MPP型数据库, 支持HIVE 和 S3 作为底层存储. impala 刷新元数据 impala 能从Hive的metastore里获取表结构的元数据, 但是并不能感知 hive 的改动, 所以如果hive的表结构发生了改动需要手动来刷新 impala 缓存的元数据. 刷新方式...

2019-02-02 17:40:46 784 0

转载 CDH 永久 UDF 发布

Creating Permanent Functions Copy the JAR file to HDFS and make sure the hive user can access this JAR file. Copy the JAR file to the host on which...

2019-01-25 11:10:52 190 0

原创 Cloudera Manager 简介

Cloudera Manager 简称 CM, 是企业级的大数据集群安装/升级/管理平台, 帮助用户通过网页上的简单操作控制整个集群. 其功能如下: 1. 提供一个software repository, 方便在各个节点上安装大数据的组件 2. 批量配置 3. 集群监控 4. 集群升级/...

2019-01-15 14:14:16 840 0

原创 Lambda 架构 Speed Layer 详解

前文链接: https://blog.csdn.net/rav009/article/details/85690985 Speed Layer作为实时处理层和离线处理层相辅相成, 当增量数据被离线处理完毕, 实时层就不必继续处理这批数据了, 术语叫作: Expiring Real-Time Vi...

2019-01-04 18:56:53 279 0

原创 Lambda 架构 Batch Layer & Serving Layer 详解

前文链接: https://blog.csdn.net/rav009/article/details/85690985 继续介绍 Lambda结构 一些理念: fact-based model 在关系型数据库的时代,我们通过维度表和事实表来组成数据仓库。但是到了大数据时代,由于数据的容量不再...

2019-01-03 16:16:03 236 0

原创 Lambda 架构 简介

  上图就是lambda结构的一个示意, 来自图书Big Data Principles and best practices of scalable realtime data system, 该书的作者就是lambda架构的创造者Nathan Marz。 大数据的技术手段百花齐放, 各...

2019-01-03 13:55:18 5547 0

原创 hive 使用 beeline 执行hql传参数; hive 使用distcp 和 MSCK 进行hive数据库迁移

beeline 命令 -u 指定链接 -e 指定hql -f 指定hql文件 --hiveconf 指定传参数,  参数在hql里形如 ${hiveconf:var}, 要有hiveconf:前缀 jdbc='jdbc:hive2://bd-master01-pe2.f.cn...

2018-12-21 18:34:07 1025 0

原创 企业级大数据的安全方案 & Kerberos 的 expire 及 renew说明

企业级大数据集群有两个层面的安全系统: 一个是每一台服务器的本地有个linux的账户系统,这个可以批量处理配置。为每个服务器建立一个本地的账号和组。用这个账号去SSH登录。 另一个就是大数据集群,即Hadoop的账号系统,是Hadoop通过 Kerberos 协议实现的。Kerberos是一个...

2018-12-04 18:38:42 414 0

原创 AWS Redshift 导出数据 进入 S3

AWS Redshift 支持一个命令 Unload, 可以快速的导出数据进入 AWS S3 UNLOAD ('select * from apfdb.common.t_rep_fr_r_loc_sku_dy_act_confirmed WHERE LOC_CNTRY_CDE=�...

2018-11-21 20:26:09 806 0

原创 Oracle 和 AWS Redshift 获取 数据库所有表名和列名的

Oracle 表名区分大小写。 select table_name from user_tables where table_name like '%xxxxx%'; select OWNER, TABLE_NAME, COLUMN_NAME from all_tab_...

2018-11-19 11:20:30 669 0

原创 Kettle Number & BigNumber Format

在Spoon的文件栏, Edit->Edit Kettle Properties files 将 KETTLE_DEFAULT_BIGNUMBER_FORMAT 项配置为0.##### 否则的话, 默认Kettle对它认为是BigNumber的列 ,把0 会强行写成0.0, 造成...

2018-11-05 19:13:02 1230 0

原创 CDH 大数据疑难解决一则

起因:  Hive查询变慢 观察: Cloudera Manager中某个Datanode报错, Health Chart每隔几分钟有红色不健康状态 观察日志: 在 /data/log/hadoop-hdfs/hadoop-cmf-hdfs-DATANODE-dw-slave01-te.uni...

2018-11-02 17:44:51 179 0

提示
确定要删除当前文章?
取消 删除