自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

  • 博客(299)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

转载 序列化对单例的破坏

序列化对单例的影响本文将通过实例+阅读Java源码的方式介绍序列化是如何破坏单例模式的,以及如何避免序列化对单例的破坏。单例模式,是设计模式中最简单的一种。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问,从而方便对实例个数的控制并节约系统资源。如果希望在系统中某个类的对象只能存在一个,单例模式是最好的解决方案。关于单例模式的使用方式,可以阅读单例模式的七种写法但是,单例模式真的

2016-03-10 17:31:50 1426

转载 数据分析侠A的成长故事

数据分析侠A的成长故事面包君 同学A:22岁,男,大四准备实习,计算机专业,迷茫期作为一个很普通的即将迈入职场的他来说,看到周边的同学都找了技术开发的岗位,顿觉自己很迷茫,因为自己不是那么喜欢钻研写代码,而自己又没太多的经验。那年他实习,选择了一家国内一线梯队的电商公司,HR问道想选择什么岗位,而他本人自己也比较困惑,说对数据感兴趣。而恰好那年公司打算成立一个数据部门,就把同学A分配到了市场部的数

2016-03-09 10:46:40 72394 9

原创 [解决] User [dr.who] is not authorized to view the logs for application

User [dr.who] is not authorized to view the logs for application原因 Resource Manager UI的默认用户dr.who权限不正确

2016-03-02 21:26:42 8968

原创 [解决] Error Code: 1044. Access denied for user 'root'@'%' to database

SQLException : SQL state: 42000 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Access denied for user 'root'@'%' to database 'ranger' ErrorCode: 1044

2016-03-01 11:27:15 24225 1

原创 赏心悦目的风景一

外功修行,内功修神

2016-02-28 23:59:32 2234 4

原创 [解决] HiveServer2中使用jdbc访问hbase时导致ZooKeeper连接持续增加的解决

最近在监控中发现HiveServer2连接到zookeeper里的连接持续上涨,很奇怪,虽然知道HiveServer2支持并发连接,使用ZooKeeper来管理Hive表的读写锁,但我们的环境并不需要这些,我们已经关闭并发功能,以下是线上的配置,甚至把这些值都改成final了。但是zookeeper连接依然会涨。后来想想,我们要访问的表是hive去映射的hbase,hivese

2016-02-23 15:55:26 7140 1

转载 数据案例-蓝米手机的精准广告营销

数据案例-蓝米手机的精准广告营销2016-01-25 劲说背景介绍:假设我是大米手机的数据分析师大傅,今天收到市场运营小旋同学的春节投放需求,在大米平台的DMP投放展示广告,做促销蓝米手机活动,投放预算是100万,同时悄悄告诉我,如果投放ROI超过2,她们市场运营总监设立奖励金额为(n-2)*1万的奖金。大傅是如何选取目标人群做精准广告投放呢?1

2016-02-21 14:25:15 1714

转载 关于移动DSP

关于移动DSP原创 2016-02-17 力美传媒 提  纲    1、移动DSP与传统营销有什么不同?    2、为什么移动DSP是大势所趋?    3、哪些因素决定移动DSP的精准与否?    4、如何辨别移动DSP的真伪优劣?    5、不同行业的广告主如何用好移动DSP?    6、怎么

2016-02-17 16:31:36 1887

原创 分布式主键生成策略

在分布式高并发的情况下,分布式主键生成策略可参考mongodb的objectid实现ObjectId是一种轻量型的,不同的机器不同的进程都能用全局唯一的同种方法生成它,而不是采用传统的自增的主键策略,因为在多台服务器上同步自动增加主键既费力又费时。ObjectId是一个24位的字符串,它是由一组十六进制的字符构成,每个字节两位的十六进制数字,总共用了12字节的存储空间。MongoDB的这种

2016-02-17 13:25:14 3535

原创 zookeeper的maxSessionTimeout默认值导致hbase regionserver超时

zookeeper的maxSessionTimeout默认值导致hbase regionserver超时在hbase中经常会遇到regionserver挂掉的情况,查看日志会看到这样的错误信息2016-02-16 11:51:24,882 WARN  [master/hadoop02/192.168.100.5:6000] zookeeper.ZKUtil: master:6000-0x352...

2016-02-17 11:42:08 8253 2

原创 提升工作效率的方法

❶写下第二天要做的全部事情❷按重要顺序,从“1”到“6”标出六件最重要的事情❸每天一开始,全力做标号为“1”的事情,直到完成或完全准备好,然后再全力以赴做标号为“2”的事情,以此类推。该方法被誉为“价值2.5万美金的时间管理方法”,值得学习!

2016-02-15 18:58:48 996

转载 Spark Streaming 实现思路与模块概述

Spark Streaming 实现思路与模块概述[酷玩 Spark] Spark Streaming 源码解析系列 ,返回目录请 猛戳这里「腾讯·广点通」技术团队荣誉出品本文内容适用范围:2016.01.04 update, Spark 1.6 全系列 √ (1.6.0)2015.11.09 update, Spark 1.5 全系列 √ (1.5.0, 1.5.

2016-02-05 16:19:12 1759

转载 Reduce Side Join实现

Reduce Side Join ExampleUser and comment joinIn thisexample, we’ll be using theusers and comments tables from the StackOverflow dataset. Storing data in this matter makessense, as storingrepetitiv

2016-01-29 17:46:48 1240

原创 File file:/data1/hadoop/yarn/local/usercache/hp/appcache/application_* does not exi

AM Container for appattempt_1453292851883_0381_000002 exited with exitCode: -1000For more detailed output, check application tracking page:http://hadoop:8088/cluster/app/application_1453292851883_01

2016-01-24 16:21:53 6762

原创 Caused by: java.io.IOException: Filesystem closed的处理

org.apache.hadoop.hive.ql.metadata.HiveException: Unable to rename output from: hdfs://nameservice/user/hive/warehouse/om_dw.db/mac_wifi_day_data/tid=CYJOY/.hive-staging_hive_2016-01-20_10-19-09_200_1

2016-01-24 16:16:55 7826

原创 linux下nproc的作用

nproc是操作系统级别对每个用户创建的进程数的限制,在Linux下运行多线程时,每个线程的实现其实是一个轻量级的进程,对应的术语是:light weight process(LWP)。怎么知道一个用户创建了多少个进程呢,默认的ps是不显示全部进程的,需要‘-L' 才能看到所有的进程。举例:查看所有用户创建的进程数

2016-01-22 14:19:52 32341

转载 Spark Streaming 的一些问题

Spark Streaming 的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint 是个很好的恢复机制。但是方案比较粗暴,直接通过序列化的机制写入到文件系统,导致代码变更和配置变更无法生效。实际场景是升级往往比系统崩溃的频率高太多。但是升级需要能够无缝的衔接上一次的偏移量。所以spark streaming在无法容忍

2016-01-18 01:19:24 1912

原创 分享周鸿祎的《如何建立一个“铁打的营盘”》

如何建立一个“铁打的营盘”?标签: 创业 团队建设 360 杂谈分类: 360中国有句古话,叫做铁打的营盘流水的兵。 我相信,创业初期,当团队里有人离开的时候,肯定有不少创业者拿这句话来安慰自己。但我觉得这句话有误

2016-01-17 20:40:48 930

原创 How to configue session timeout in Hive

This article explains how to configure the following settings in Hive:hive.server2.session.check.intervalhive.server2.idle.operation.timeouthive.server2.idle.session.timeout1). hive.se

2016-01-12 23:27:31 3196 1

原创 毕业十年纪念

亲爱的同学:弹指一挥间,一晃毕业十年。曾记否,毕业前,泪眼挥手相送;现如今,毕业后,记忆俨然朦胧。感慨万千,物是人非。环肥燕瘦者,如今为人妻为人母;英俊倜傥者,如今为人夫为人父。想目睹一下当初她(她)么?想必,风采不现,神韵依旧。轻候一声:你好么?不恨郎娶妾嫁,不怨造物弄人,只盼来生再遇。我愿,忍受五百年的风吹、五百年的日晒、五百年雨淋,只愿你从身旁走过。喝口孟婆汤,穿过奈河桥,三

2016-01-10 22:29:18 2116

原创 常用排序算法

瞬间学会数据结构常用排序算法分类: 数据结构 2014-10-30 20:05 1639人阅读 评论(0)收藏 举报本文是在学习中的总结,欢迎转载但请注明出处:http://blog.csdn.net/pistolove/article/details/40625351下面是用JAVA代码实现的数据结构中的7种基本排序算法,希望对你有所帮助。

2016-01-08 00:33:32 1357

原创 [异常处理]class kafka.common.UnknownTopicOrPartitionException (kafka.server.ReplicaFetcherThread)

在kafka.out日志里出现大量ERROR [ReplicaFetcherThread-0-1], Error for partition [FLAG_DATA_SYC,1] to broker 1:class kafka.common.UnknownTopicOrPartitionException (kafka.server.ReplicaFetcherThread)这是由于

2016-01-06 16:24:40 9753

原创 线程的几个状态

Runnable:一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在传递SQL到数据库执行,有可能在对某个文件操作,有可能进行数据类型等转换。Waiting on condition:等待资源,或等待某个条件的发生。具体原因需结合 stacktrace来分析。如果堆栈信息明确是应用代码,则证明该线程正在等待资源。一般是大量读取某资源,且该资源采用了资源锁的情况下,线

2016-01-04 00:27:13 1178

原创 星型模式

一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表。  事实表是星型模型的核心,事实表由主键和度量数据两部分组成。星型模型中各维度表主键的组合构成事实表的主键。事实表中存放的大量数据,是同主题密切相关的、用户最关心的度量数据。星级酒店最需要关注的是客户消费情况。为分析的需求,基础事实表中需要记载的是客人最低粒度的消费事实。即用何种促销手段使某位客人在某个时间进行了何种形

2016-01-03 23:59:56 2435

原创 统计中纬度与指标的区别

在统计分析系统中,维度:是分析的角度。如流量来源(广告、搜索引擎等),上网方式等 。指标:是用数值来量化分析维度。是衡量数据的  指标是指可以按总数或比值衡量的具体维度元素。例如,维度“城市”可以计算指标“人口”,其值为具体城市的居民总数。又例如,衡量某个渠道来源的流量所浏览的网页数(浏览量即pv),流量在网站上的平均停留时间等此外:指标是事实指标是维度的一个点

2015-12-28 00:01:51 5575

原创 ClusterId read in ZooKeeper is null 处理

ClusterId read in ZooKeeper is null.Re-running the program after fixing issue 1 will result in the following error in the log file (Oddly logged at INFO level)13/12/11 09:45:33 INFO zookeeper.

2015-12-22 17:33:54 15937 3

转载 千万级规模高性能、高并发的网络架构经验分享

千万级规模高性能、高并发的网络架构经验分享主 题 :INTO100沙龙时间 :2015年11月21日下午地点 :梦想加联合办公空间分享人:卫向军(毕业于北京邮电大学,现任微博平台架构师,先后在微软、金山云、新浪微博从事技术研发工作,专注于系统架构设计、音视频通讯系统、分布式文件系统和数据挖掘等领域。)架构以及我理解中架构的本质在开始谈我对架构本质的理解之前,

2015-12-21 23:02:59 2463 1

转载 数据集市

1.  什么是数据集市?数据集市与数据仓库的区别?       数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented) 、集成的( Integrate ) 、相对稳定的(Non -Volatile ) 、反映历史变化( Time Variant) 的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面

2015-12-21 01:20:43 3530

转载 支付宝数据建模介绍

支付宝数据建模介绍

2015-12-21 00:42:32 2021

原创 hive executeTask被interrupt处理

java.io.IOException: Failed on local exception: java.nio.channels.ClosedByInterruptException; Host Details : local host is: "hadoop008/192.168.28.77"; destination host is: "hadoop004":8020; at org.a

2015-12-20 11:22:56 2672 3

原创 Linux网络进程监控工具nethogs

Linux网络监控工具nethogs标签: 监控工具linux2015-12-17 22:06 448人阅读 评论(0) 收藏 举报 分类:linux(40) 版权声明:本文为博主原创文章,未经博主允许不得转载。Nethogs 是一个终端下的网络流量监控工具,它的特别之处在于可以显示每个进程的带宽占用情况,这样可以更直观获

2015-12-19 09:19:43 1226

转载 linux系统关闭IPv6的方式

云服务器 ECS > Linux操作运维问题 > 应用配置 > linux系统关闭IPv6的方式linux系统关闭IPv6的方式IPv6被认为是IPv4的替代产品,它用来解决现有IPv4地址空间即将耗尽的问题。但目前,开启IPv6可能会导致一些问题。因此有时我们需要关闭IPv6。下面是IPv6的关闭方法应该适用于所有主流的Linux发行版包括Ubuntu、D

2015-12-17 19:04:45 5744

原创 DataXceiver error processing unknown operation src: /127.0.0.1:36479 dst: /127.0.0.1:50010处理

异常信息如下: 2015-12-09 17:39:20,310 ERROR datanode.DataNode (DataXceiver.java:run(278)) - hadoop07:50010:DataXceiver error processingunknown operation  src: /127.0.0.1:36479 dst: /127.0.0.1:50010

2015-12-17 18:06:25 26687

转载 构建企业级数据仓库五步法

数据仓库建模与ETL实践技巧Posted on 2008-08-01 10:07 xuzhengzhu 阅读(295) 在上一期的专栏文章中,我们曾经提到:数据分析系统的总体架构分为四个部分 —— 源系统、数据仓库、多维数据库、客户端(图一:pic1.bmp)其中,数据仓库(DW)起到了数据大集中的作用。通过数据抽取,把数据从源系统源源不断地抽取出来,可能每天一次,或者每3个小

2015-12-17 08:24:04 2237

转载 数据仓库建设步骤

数据仓库建设步骤Posted on 2015-03-04 10:18 xuzhengzhu 阅读(1164) 评论(0) 编辑 收藏1.系统分析,确定主题确定一下几个因素:    ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。    ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。    ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是

2015-12-17 08:21:22 1555

转载 数据仓库建模:定义事实表的粒度

数据仓库建模:定义事实表的粒度Posted on 2015-08-25 09:03 xuzhengzhu 阅读(28) 评论(0) 编辑 收藏维度建模中一个非常重要的步骤是定义事实表的粒度。定义了事实表的粒度,则事实表能表达数据的详细程度就确定了。定义粒度的例子如下:1.客户的零售单据上的每个条目。2.保险单上的每个交易。定义好事实表的粒度有很大的用处。第一个用处就

2015-12-17 08:19:38 4241

转载 BI在连锁零售业应用

BI案例:BI在连锁零售业应用(ZT)Posted on 2015-08-25 09:31 xuzhengzhu 阅读(42) 评论(0) 编辑 收藏第一部分:连锁零售企业上BI的必要性.  目前国内的连锁零售行业的发展趋势,呈现出产业规模化,经营业态多样化,管理精细化的特点。所谓管理精细化就是"精耕细作搞管理,领先一步订系统"。如今的商业企业在日常的经营过程中,产生了大量的信

2015-12-17 08:09:07 2222

原创 分布式数据仓库设计

做大做强事实表,做小做弱维表;分布式模式-维度建模新原则  (1)以值代键:针对键值唯一的维表,除非必要,否则不引入维表,如IP地址维表,采用IP作为维表的主键,事实表中存储IP值;      (2)合理分表:传统关系型数据仓库存在多表整合的冲动,如上图Event事实表,各种Acount Ind,Finance Ind等,用来扩展表的通用性,试图把所有的数据都存储到一张表 中。

2015-12-15 08:11:51 1430

转载 多维数据模型

一、概述  多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪花模式和事实星座模式,本文以实例方式展示三者的模式和区别。二、星型模式(star schema)  星型模式的核心是一个大的中心表(事实表),一组小的附属表(维表)。星型模式示例如下所示:

2015-12-15 08:10:29 2279

原创 Kafka消息delivery可靠性保证(Message Delivery Semantics)

原文见:http://kafka.apache.org/documentation.html#semantics有这么几种可能的delivery guarantee:At most once 消息可能会丢,但绝不会重复传输At least one 消息绝不会丢,但可能会重复传输Exactly once 每条消息肯定会被传输一次且仅传输一次,很多时候这是用户所想要的。

2015-12-15 07:51:45 3156

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍

2019-07-07

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下

2018-04-07

正则表达式验证工具.exe

正则表达式验证工具 验证正则正确与否的利器 验证java、javascript等等,非常棒的软件,推荐下

2013-03-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除