自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 linux 删除文件第一行的方法

删除第一行sed -i '1d' filename范围删除,删除1-3行sed -i '1,3d' filename删除第n行sed -i 'nd' filename删除最后一行sed -i '$d' filename

2018-08-31 08:50:15 27576 2

原创 CDH Oozie邮件配置

 一、从Cloudera Manager进入Oozie配置  二、搜索框输入email,配置邮件相关字段,总共5个地方1、Oozie 电子邮件操作 SMTP 主机:即邮件服务器主机名,比如smtp.163.com、smtp.qq.com等2、Oozie 电子邮件操作发件人地址:邮件发件人地址,如xxx.163.com3、启用身份验证4、Oozie 电子邮件操...

2018-08-24 14:33:09 2123 1

原创 CDH交换内存警告解决方法

交换内存定义:Linux中Swap(即:交换分区),类似于Windows的虚拟内存,就是当内存不足的时候,把一部分硬盘空间虚拟成内存使用,从而解决内存容量不足的情况 现象:交换内存警告如下 解决方法:1、设置swappiness值为0,表示尽可能不使用交换内存(1)临时设置方案,重启后设置不生效[root@cdh-001 ~]# sysctl vm.swappine...

2018-08-21 18:19:17 13990 1

原创 CDH邮件报警配置

话不多说直接给CDH邮件报警配置 一、点击进入Cloudera Management Service页面,如下图 二、进入Cloudera Management Service页面后,点击配置-》输入alert,按照下图修改即可 邮件服务器主机名称:根据自己实际情况选择,可用smtp.163.com、smtp.qq.com等邮件服务器用户名:对应邮件服务器的邮箱...

2018-08-21 13:35:45 5786 1

原创 CDH从入门到精通系列文章汇总

 CDH从入门到精通系列文章汇总(CDH运维方面):入口地址:https://mp.weixin.qq.com/s/QrQN6F54P7dUeWIJqS9QSQ   

2018-08-20 08:50:16 4229

原创 spark慢task解决方法--推测式执行原理

参考:https://blog.csdn.net/uuffo/article/details/78288921概述1、spark推测执行开启,设置 spark.speculation=true即可额外设置1. spark.speculation.interval 100:检测周期,单位毫秒;2. spark.speculation.quantile 0.75:完成task的百分...

2018-08-19 09:54:05 5128

原创 Oozie web console is disabled. To enable Oozie web console install the Ext JS library 解决方法

下载ext-2.2.zip,放到路径/var/lib/oozie,解压并修改权限即可,具体步骤如下[root@bda1 oozie]# pwd/var/lib/oozie[root@bda1 oozie]#wget http://archive.cloudera.com/gplextras/misc/ext-2.2.zip[root@bda1 oozie]# unzip ext-2...

2018-08-16 16:08:34 2400

转载 Flink应用实践-唯品会

本文来自于王新春在2018年7月29日 Flink China社区线下 Meetup·上海站的分享。王新春目前在唯品会负责实时平台相关内容,主要包括实时计算框架和提供实时基础数据,以及机器学习平台的工作。之前在美团点评,也是负责大数据平台工作。他已经在大数据实时处理方向积累了丰富的工作经验。本文主要内容如下: 唯品会实时平台现状 Flink在唯品会的实践 Flin...

2018-08-14 08:56:48 1564 1

转载 基于 Flink 的实时特征平台在携程的应用

本文来自7月26日在上海举行的 Flink Meetup 会议,分享来自于刘康,目前在大数据平台部从事模型生命周期相关平台开发,现在主要负责基于flink开发实时模型特征计算平台。熟悉分布式计算,在模型部署及运维方面有丰富实战经验和深入的理解,对模型的算法及训练有一定的了解。本文主要内容如下: 在公司实时特征开发的现状基础上,说明实时特征平台的开发背景、目标以及现状 选择F...

2018-08-14 08:53:46 1439

原创 HBase优化实战

 参见博文:https://mp.weixin.qq.com/s/3AAy2LIQPxWivfFVrk4iew

2018-08-11 00:45:38 203

原创 干货 | Spark Streaming 和 Flink 详细对比

原文详见:https://mp.weixin.qq.com/s/Fb1cW0oN7xYeb1oI2ixtgQ

2018-08-11 00:39:08 12188

原创 Apache Flink 1.6.0重要更新特性

转自:https://mp.weixin.qq.com/s/n_K9JvJPjiH1HKlf8vywIA为期两个月开发的 Apache Flink 1.6.0 于昨天(2018-08-09)正式发布了。Flink 社区艰难地解决了 360 个 issues,到这里查看完整版的 changelog 。Flink 1.6.0 是 1.x.y 版本系列上的第七个版本,1.x.y 中所有使用 @Pub...

2018-08-11 00:26:35 1046

转载 大数据之数仓平台设计思路01

转自:https://blog.csdn.net/hxiao1317098/article/details/73623690对于大数据来说,数仓的作用不言而喻,承载着整个公司全业务线的数据,现阶段,在hadoop上的数仓主要是用来解决企业内部数据的分析,尤其是各种各样的统计分析报表。本文主要结合自己公司目前数仓的结构设计和现阶段解决的问题而叙述和分享,如有不明,错误之处,各位看官可指出,非常感...

2018-08-09 09:01:48 788

转载 各大公司的大数据质量监控平台

转自:https://zhuanlan.zhihu.com/p/41679658在这个信息化时代,你用手机打开微信聊天、打开京东app浏览商品、访问百度搜索、甚至某些app给你推送的信息流等等,数据无时无刻不在产生。数据,已经成为互联网企业非常依赖的新型重要资产。数据质量的好坏直接关系到信息的精准度,也影响到企业的生存和竞争力。Michael Hammer(《Reengineering t...

2018-08-09 08:31:41 45903 1

原创 Scala double保留小数的方法

scala使用formatted可设置保留小数的位数,采用四舍五入scala> val a=12.34562a: Double = 12.34562scala> a.formatted("%.2f") #其中2表示保留小数位数res3: String = 12.35scala> a.formatted("%.4f")res4: String = 12.34...

2018-08-08 15:46:29 30423

转载 where和having的区别和用法

转自:https://blog.csdn.net/jdjh1024/article/details/76647866聚合函数是比较where、having 的关键。 开门见山。where、聚合函数、having 在from后面的执行顺序:where>聚合函数(sum,min,max,avg,count)>having列出group by来比较二者。()因where和h...

2018-08-03 16:12:27 704

原创 Windows 上IDEA Spark 支持Hive的方法

在Windows IDEA进行Spark开发的时候,只要enableHiveSupport()就会报错,网上找了很多文章均不能解决问题,折腾了半天终于解决了,做一个记录 一、需要集群中Hive的配置hive-site.xml和hdfs-site.xml放到工程的resource目录下如果是cdh则hive的配置在/etc/hive/conf路径下,如下图:IDEA resour...

2018-08-03 11:11:35 2636

原创 错误Could not locate executable null\bin\winutils.exe in the Hadoop binaries的解决方案(带hadoop下载地址)

问题描述:Windows IDEA在进行spark 开发的时候,运行报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries(注:这个错误一般不用管,但是如果SparkSession 要enableHiveSupport(),则必须解决,否则运行会报错) 解决步骤:步骤一、下载Win...

2018-08-03 10:47:54 2653 1

原创 Hive/Impala 日期计算与比较

一、比较函数datediff select datediff("2018-01-05","2018-01-02")  from 表   //返回值是3select datediff("2018-01-05","2018-01-08")  from 表   //返回值是-3hive> select datediff("2018-01-05","2018-01-02&quot

2018-08-02 13:58:58 10099

原创 Hive表修改注释

一、修改hive表注释ALTER TABLE 表名 SET TBLPROPERTIES('comment' = '表注释内容'); 二、修改hive表字段注释ALTER TABLE 表名 CHANGE 列名 新的列名 新列名类型 COMMENT '列注释'; CREATE TABLE test_change (a int, b int, c int);   ...

2018-08-01 10:24:22 18818 1

原创 cdh hive 中文注释乱码解决方法(简单几步)

一、问题描述环境 cdh5.12.1 + hive 1.1.0。 hive 元数据库用的是mysql创建hive表后,用desc查看表信息,中文注释出现乱码,如下 二、解决方法1、进入mysql执行:show create database hive;  发现默认是utf8类型    mysql> show create database hive;+-----...

2018-08-01 09:45:09 4207 5

Python2.6安装程序

Python安装程序,安装后可用!希望对大家有帮助

2011-04-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除