自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

  • 博客(299)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 赏心悦目风景二

赏心悦目风景

2017-05-17 10:43:16 794

转载 开源数据库中间件对比

本文比较了360(Atlas)、美团点评(DBProxy)、Kingshard、携程(DAL)、蘑菇街(TSharding)、阿里(TDDL)、当当(Sharding-JDBC 360)、MyCAT 共8种当下流行的开源数据库中间件,从总体来看mycat占据优势

2017-04-16 14:52:31 12046 6

转载 深入了解volatile

volatile关键字经常在并发编程中使用,其特性是保证可见性以及有序性,但是关于volatile的使用仍然要小心,这需要明白volatile关键字的特性及实现的原理,这也是本篇文章的主要内容一、Java内存模型想要理解volatile为什么能确保可见性,就要先理解Java中的内存模型是什么样的。Java内存模型规定了所有的变量都存储在主内存中。每条线程中还有自己的工作内存,线程的工作内存中保存了

2017-04-08 09:55:47 931 1

原创 dfs.datanode.du.reserved 预留空间不生效的问题

dfs.datanode.du.reserved 预留空间不生效的问题

2017-04-08 09:46:06 2029 1

转载 Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念

2017-04-05 09:59:52 1153

原创 kafka彻底删除topic

今天发现一个线上kafka(版本为0.8.2.2)多天前已不再消费的topic标记为删除(marked for deletion),而我们每天有定时删除topic的shell脚本,会把无用的topic干掉,但发现这些topic只是被标记为删除,而并没有真正删除

2017-03-20 15:08:56 5349

转载 配置ntpd时钟同步服务

ntpd时钟同步服务目录参考:CentOS配置时间同步NTP: http://www.crsay.com/wiki/wiki.php/server/centos/ntp-set解决ntp的错误 no server suitable for synchronization found: http://www.blogjava.net/spray/archive/2008/07/10/213964.h

2017-03-03 19:44:57 2291

原创 Ambari和ClouderaManager主要不同对比

Ambari和ClouderaManager主要的不同对比 打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开发 支持 不支持 集成 支持 no (不支持redis、kylin、es) 维护

2017-02-28 11:29:32 9760

原创 python使用snappy压缩

今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py3.yum install gcc-c++4.pip install python-snappy用法:python -m snappy -c uncompressed_file compressed_f

2017-02-08 19:48:51 6948

原创 Hadoop YARN 的工作流程简述

1、Client 向 YARN 提交应用程序,其中包括 ApplicationMaster 程序及启动 ApplicationMaster 的命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container,并与对应的 NodeManager 通信,要求它在这个 Container 中启动应用程序的 ApplicationMaster3、Applic

2016-12-18 22:55:25 1633

原创 修改ranger ui的admin用户登录密码踩坑小记

修改的ranger ui的admin用户登录密码时,需要在ranger的配置里把admin_password改成一样的,否则hdfs的namenode在使用admin时启动不起来,异常如下:Traceback (most recent call last): ambari_ranger_admin, ambari_ranger_password = self.create_ambari_admin_user(ambari_ranger_admin, ambari_ranger_password, f

2016-10-27 10:33:13 6401

转载 Redis 为什么用跳表而不用平衡树

Redis 为什么用跳表而不用平衡树?本文是《Redis内部数据结构详解》系列的第六篇。在本文中,我们围绕一个Redis的内部数据结构——skiplist展开讨论。Redis里面使用skiplist是为了实现sorted set这种对外的数据结构。sorted set提供的操作非常丰富,可以满足非常多的应用场景。这也意味着,sorted set相对来说实现比较复杂。同时,skiplist这种数据结

2016-10-10 22:52:10 4655 1

转载 如何为Kafka集群选择合适的Partitions数量

如何为Kafka集群选择合适的Partitions数量Hadoop技术博文  这是许多kafka使用者经常会问到的一个问题。本文的目的是介绍与本问题相关的一些重要决策因素,并提供一些简单的计算公式。文章目录 [hide]1 越多的分区可以提供更高的吞吐量2 越多的分区需要打开更多地文件句柄3 更多地分区会导致更高的不可用性4 越多的分区可能增加端对端的延迟5 越多的partition意味着需要客户

2016-09-18 10:11:50 11758 2

原创 一图看懂深度学习框架对比----Caffe Torch Theano TensorFlow

深度学习框架对比

2016-08-29 10:54:36 2473

转载 关于深度学习(deep learning)的常见疑问 --- 谷歌大脑科学家 Caffe缔造者 贾扬清

问答环节:问:在finetuning的时候,新问题的图像大小不同于pretraining的图像大小,只能缩放到同样的大小吗?” 答:对的:)问:目前dl在时序序列分析中的进展如何?研究思路如何,能简单描述一下么答:这个有点长,可以看看google最近的一系列machine translation和image description的工作。问:2个问题:1.目前Caffe主要面对CV或图像的任务,是否会考虑其它任务,比如NLP?2.如果想学习Caffe代码的话,能给一些建议吗?答:Caffe的确

2016-08-07 23:17:27 3243 4

原创 神经网络CNN训练心得--调参经验

1.样本要足够随机2.样本要做归一化3.激活函数要视样本输入选择4.minibatch很重要,几百到几千是比较合适的(很大数据量的情况下)5.learning rate很重要,可以直接用adagrad or adadelta,省去一些麻烦,然后把冲量调到0.9以上6.权重初始化,可用高斯分布乘上一个很小的数

2016-08-07 21:29:03 21419 4

转载 数据归一化处理

为什么要对数据进行归一化?    归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高梯度下降法求解最优解的速度?      斯坦福机器学习视频做了很好的解释:https://class.coursera.org/ml-003/lecture/21      如下图所示,蓝色的圈圈图代表的是两个特征的等高线。其中左图两个特征X1和X2的

2016-08-07 21:16:10 11463

原创 centos上tensorflow一键安装脚本

鉴于tensorflow在centos上安装相当麻烦,特地制作了一个脚本方便以后移植到其它机器上,脚本含有其它python常用包:#! /bin/bash  sudo yum install -y gcc g++ gtk+-devel libjpeg-devel libtiff-devel jasper-devel libpng-devel zlib-devel cmake unzip sqli

2016-08-01 14:08:02 2120

转载 深度学习---tensorflow简介

什么是深度学习?在机器学习流行之前,都是基于规则的系统,因此做语音的需要了解语音学,做NLP的需要很多语言学知识,做深蓝需要很多国际象棋大师。而到后来统计方法成为主流之后,领域知识就不再那么重要,但是我们还是需要一些领域知识或者经验来提取合适的feature(特征),feature的好坏往往决定了机器学习算法的成败。对于NLP来说,feature还相对比较好提取,因为语言本身就是高度的抽象;而对于

2016-07-18 23:58:40 3661

原创 人工智能----TensorFlow开篇简介

Artificial Intelligence,也就是人工智能。TensorFlow是Google在2015年底开源的项目TensorFlow的论文地址:http://download.tensorflow.org/paper/whitepaper2015.pdfTensorFlow的中文翻译:http://bigdata.rzaixian.com/tensorflowzh/

2016-07-18 23:56:48 2551

原创 Centos6.5+Python2.7 +ffmpeg+opencv2自动安装脚本

今天安装opencv折腾了多个小时,为以后安装少走弯路,脚本安装完整 脚本如下

2016-07-16 20:29:20 2796

原创 决策统计---指标六要素

决策统计---指标六要素

2016-06-29 11:12:37 5711

原创 大数据应用分类

1.工具或者服务化平台。Hadoop基础套件的。像亚马逊云等3.数据交易。典型企业有数据堂,api接口的各公司2.数据统计分析。这一类主要是BI,既有企业自有产品,也有第三方产品5.报告或解决方案。做大数据解决方案的公司就很多了,典型的公司为IBM。4.数据挖掘。用户画像(标签:奶爸;户外达人),做广告,营销等6.人工智能/AI。微软小冰,机器人

2016-06-28 11:51:18 3350

原创 Hadoop Yarn事件驱动处理框架源码分析

由于想在项目中使用类似yarn的事件处理机制,就看了实现。主要是由Dispatcher.java,EventHandler.java,Service.java这3个类撑起来的。在事件处理之前,先注册相应的事件处理handler,收到事件event后,由派发事件的Dispatcher进行派发,默认采用异步事件处理方式将事件放到事件队列(LinkedBlockingQueue)中,消费者会循环从队列

2016-06-21 21:54:46 4995

原创 清除windows系统垃圾文件简易脚本(bat)

@echo off      echo 正在清除系统垃圾文件,请稍等......      del /f /s /q %systemdrive%\*.tmp      del /f /s /q %systemdrive%\*._mp      del /f /s /q %systemdrive%\*.log      del /f /s /q %systemdrive%\*.gid      de

2016-06-10 12:11:57 6501

原创 优化Hadoop Balancer运行速度

 1. 修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers2. 修改dfs.datanode.balance.bandwidthPerSec  = 52428800,指定DataNod...

2016-05-17 15:13:30 6786

原创 [解决]java.io.IOException: Cannot obtain block length for LocatedBlock

Cannot obtain block length for LocatedBlock

2016-05-16 01:55:21 9310

原创 数据库拆分的几种方式

数据库做拆分的几种方式:1.按功能划分(垂直切分)将不同功能相关的表放到不同的数据库中,这样做的好处是非常直观。但当某一部分的功能其数据量或性能要求超出了可控的范围,就需要继续对其进行深入的再切分。2.按表中某一字段值的范围划分(水平切分)当伴随着某一个表的数据量越来越大,以至于不能承受的时候,就需要对它进行进一步的切分。一种选择是根据key 的范围来做切分,譬如ID 为 1-10000的放到A上

2016-05-04 00:22:39 6654

原创 架构设计文档提纲简描

提纲很简单的:一、概述二、目的三、项目背景四、系统建设目标五、参考资料六、架构设计6.1 架构分析6.2 设计思想6.3 架构体系6.4 系统视图6.5 模块划分6.5.1 模块描述6.5.2 模块接口

2016-04-24 01:10:36 2456

转载 各大互联网公司架构演进之路汇总

各大互联网公司架构演进之路汇总大型网站架构演化历程大型网站架构技术一览Web支付宝和蚂蚁花呗的技术架构及实践支付宝的高可用与容灾架构演进聚划算架构演进和系统优化 (视频+PPT)淘宝交易系统演进之路 (专访)淘宝数据魔方技术架构解析淘宝技术发展历程和架构经验分享(视频+PPT)(2.3日更新)高德——快速转型时期的稳定性架构实践(视频+PPT)(2.3日更新)秒杀系统架构分析与实战腾讯社区搜索架构

2016-04-24 00:55:12 2774

原创 大数据安全规范

大数据的安全体系分为五个层次:周边安全、数据安全、访问安全(认证 - authentication和授权 - authorization)、访问行为可见、错误处理和异常管理

2016-04-23 23:31:30 11720

原创 生活启示

美女住酒店一晚结账时账单800元,她抱怨太贵。经理说这是标准收费,酒店附设泳池、健身房和wifi。美女说自己完全没使用,经理说饭店有提供,是她自己不用。 女客人打开皮包掏钱付账,但说要扣除经理和她共度春宵的700元,只拿出100元。经理急呼:“我哪有?”女客人:“我有提供,是你自己不用!”【习惯】乞丐到小王家乞讨,他给十块,第二天乞丐又去,又给十块,持续两年。一天只给五块,乞丐:以前给十块,怎么现

2016-04-12 10:33:02 2912 2

转载 mysql数据库分库分表(Sharding)

mysql数据库切分前言通过MySQLReplication功能所实现的扩展总是会受到数据库大小的限制,一旦数据库过于庞大,尤其是当写入过于频繁,很难由一台主机支撑的时候,我们还是会面临到扩展瓶颈。这时候,我们就必须许找其他技术手段来解决这个瓶颈,那就是我们这一章所要介绍恶的数据切分技术。 何谓数据切分可能很多读者朋友在网上或者杂志上面都已经多次见到关于数据切分的相关文章了,只不过在有些文章中称之

2016-04-06 10:51:41 5101 2

转载 大数据风控指标----查准率与查全率

大数据风控指标介绍2016-03-24 大林1查准率与查全率先说个例子,申请人有400个,其中有160个是好人,240个是坏人。我们用一个模型A,挑出了100个好人,其中真正的好人是80个,剩下20个是漏网之鱼。我们定义一个“查准率”(precision),为挑出来的好人中,真正是好人的比例。即: 同时,我们定义一个“查全率”(recall),为查出来的好人占总的好人的比例。即:“查准率”和“查全

2016-03-24 22:33:25 4025 1

原创 YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本

2016-03-21 23:11:50 8921 1

转载 不要在linux上启用net.ipv4.tcp_tw_recycle参数

不要在linux上启用net.ipv4.tcp_tw_recycle参数发布于 2015/07/27 莿鸟栖草堂本文为翻译英文BLOG《Coping with the TCP TIME-WAIT state on busy Linux servers》,但并非完整的翻译,译者CFC4N对原文理解后,进行了调整,增加了相关论点论据,跟原文稍有不同。翻译的目的,是为了加深自己知识点的记忆,以及分享给其

2016-03-20 07:51:03 3121

原创 [Spark经验一]Spark RDD计算使用的函数里尽量不要使用全局变量

比如RDD里的计算调用了别的组件类里的方法(比如hbase里的put方法),那么序列化时,会将该方法所属的对象的所有变量都序列化的,可能有些根本没有实现序列化导致直接报错。也就是spark的api没有做到用户无感知,在使用一些全局方法时还需自己控制。简单点,能定义在计算函数内的方法就定义在里面。

2016-03-19 22:33:03 7620 3

转载 电商数据分析基础指标体系

电商数据分析基础指标体系 傅志华 信息流、物流和资金流三大平台是电子商务的三个最为重要的平台。而电子商务信息系统最核心的能力是大数据能力,包括大数据处理、数据分析和数据挖掘能力。无论是电商平台(如淘宝)还是在电商平台上销售产品的卖家,都需要掌握大数据分析的能力。越成熟的电商平台,越需要以通过大数据能力驱动电子商务运营的精细化,更好的提升运营效果,提升业绩。构建

2016-03-15 18:26:07 6216

原创 HBase客户端访问超时的多个因素及参数

在一个需要低延时响应的hbase集群中,使用hbase默认的客户端超时配置简直就是灾难。但是我们可以考虑在客户端上加上如下几个参数,去改变这种状况

2016-03-14 16:03:21 2917 2

转载 机器学习路线图

机器学习路线图(附资料)1. 引言也许你和这个叫『机器学习』的家伙一点也不熟,但是你举起iphone手机拍照的时候,早已习惯它帮你框出人脸;也自然而然点开今日头条推给你的新闻;也习惯逛淘宝点了找相似之后货比三家;亦或喜闻乐见微软的年龄识别网站结果刷爆朋友圈。恩,这些功能的核心算法就是机器学习领域的内容。套用一下大神们对机器学习的定义,机器学习研究的是计算机怎样模拟人类的学习行为,以获取新的知识或技

2016-03-10 18:51:27 2454

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍

2019-07-07

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下

2018-04-07

正则表达式验证工具.exe

正则表达式验证工具 验证正则正确与否的利器 验证java、javascript等等,非常棒的软件,推荐下

2013-03-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除