2017年03月_youzhouliu

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载浅析Hadoop中的数据倾斜

在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切分

2017-03-31 14:02:46 1313 4

目前大数据存储有两种方案可供选择：行存储和列存储。业界对两种存储方案有很多争持，集中焦点是:谁能够更有效地处理海量数据，且兼顾安全、可靠、完整性。从目前发展情况看，关系数据库已经不适应这种巨大的存储量和计算要求，基本是淘汰出局。在已知的几种大数据处理软件中，Hadoop的HBase采用列存储，MongoDB是文档型的行存储，Lexst是二进制型的行存储。在这里，我不讨论这些软件的技术和优缺点，只围

2017-03-28 11:29:42 1255

转载行存储和列存储的区别

列存储不同于传统的关系型数据库，其数据在表中是按行存储的，列方式所带来的重要好处之一就是，由于查询中的选择规则是通过列来定义的，因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量，一个字段的数据聚集存储，那就更容易为这种聚集存储设计更好的压缩/解压算法。传统的行存储和列存储的区别 1、数据是按行存储的 2、没

2017-03-28 10:51:51 19779

转载传统的行存储和（HBase）列存储的区别

1 为什么要按列存储列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组织表(翻译不好，直接抄原文了)：Ø Row-based storage stores atable in a sequence of rows.Ø Column-based storag

2017-03-28 10:42:34 27491 5

转载 Ambari——大数据平台的搭建利器

Ambari 是什么Ambari 跟 Hadoop 等开源软件一样，也是 Apache Software Foundation 中的一个项目，并且是顶级项目。目前最新的发布版本是 2.0.1，未来不久将发布 2.1 版本。就 Ambari 的作用来说，就是创建、管理、监视 Hadoop 的集群，但是这里的 Hadoop 是广义，指的是 Hadoop 整个生态圈（例如 Hive，Hbase，

2017-03-27 17:05:23 7995 5

转载 ambari2.4.0_centos7 安装

在 hortonworks公共资源库选定一个ambari版本并复制对应的repo地址(这个网页的内容加载很慢要耐心等)。我选的是2.4.2 地址是http://s3.amazonaws.com/public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.4.2.0/ambari.repo。使用wget下载到节点，或者下载到物理机后上

2017-03-27 16:06:07 1534

转载 CentOS2.7升级Python到3.5后，yum和gnome-twear-tool 出现问题

CentOS 7升级Python到3.5后，我跟以前CentOS 6一样，在/usr/bin/python创建了一个指向Python 3的软连接，然后将/usr/bin/yum的顶部的：!/usr/bin/python 改成了!/usr/bin/python2.7 后，运行yum，还是出现了以下错误：[root@vps ~]# yum -y install yum-pr

2017-03-27 14:11:52 616

转载【Hadoop】HDFS的运行原理

简介HDFS（Hadoop Distributed File System ）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（Google File System）Google 文件系统（中文，英文）。HDFS有很多特点： ① 保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。

2017-03-21 14:46:05 561

转载使用XShell简化跳板机到开发机的登录操作

背景我在Qunar的工作是运维开发，因此需要通过终端连接到远程开发机进行工作，由于安全等因素，登录开发机时需要先登录跳板机，然后在跳板机上再实际连接开发机，如下图所示：正常的登录流程使用ssh命令登录跳板机，输入自己的设置的密码+token生成的动态密码；登录跳板机成功后，在跳板机分配的终端中使用ssh

2017-03-13 10:24:27 9160

原创 hadoop 2.7伪分布安装

hadoop 2.7的“伪”分式安装与“全”分式安装相比，大部分操作是相同的，主要区别在于不用配置slaves文件，而且其它xxx-core.xml里的参数很多也可以省略，下面是几个关键的配置：（安装JDK、创建用户、设置SSH免密码这些准备工作，大家可参考hadoop 2.6全分布安装一文，以下所有配置文件，均在$HADOOP_HOME/etc/hadoop目录下）另外,

2017-03-11 20:14:51 607

转载 Hive总结（五）hive日志

日志记录了程序运行的过程，是一种查找问题的利器。Hive中的日志分为两种1. 系统日志，记录了hive的运行情况，错误状况。2. Job 日志，记录了Hive 中job的执行的历史过程。系统日志存储在什么地方呢？在hive/conf/ hive-log4j.properties 文件中记录了Hive日志的存储情况，默认的存储情况：hive.root.log

2017-03-06 17:44:59 654

转载 Hive总结（四）hive安装记录

本篇为安装篇较简单：前提：1: 安装了hadoop-1.0.4（1.0.3也可以）正常运行2:安装了hbase-0.94.3, 正常运行接下来，安装Hive，基于已经安装好的hadoop，步骤如下：1：下载从http://hive.apache.org/下载hive-0.9.0/创建目录/hive将文件hive-0.9.0保存在/hive下

2017-03-06 17:39:34 470

转载 Hive总结（三）hive组件和执行过程

1、组件：元存储（Metastore ）－存储“系统目录以及关于表、列、分区等的元数据”的组件。驱动（Driver ）－控制 HiveQL 生命周期的组件，当 HiveQL 查询穿过 Hive时。该驱动管理着会话句柄以及任何会话的统计。查询编译器（Query Compiler）－是一个组件，将HiveQL编译成有向无环图（directed acyclic graph,

2017-03-06 16:51:18 974

转载 Hive总结（二）hive基本操作

阅读本文章可以带着下面问题：1.与传统数据库对比，找出他们的区别2.熟练写出增删改查（面试必备）创建表：hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and th

2017-03-06 16:04:24 495

转载 Hive总结（一）hive初始

1.没有接触，不知道这个事物是什么，所以不会产生任何问题。2.接触了，但是不知道他是什么，反正我每天都在用。3.有一定的了解，不够透彻。那么hive，1.我们对它了解多少？2.它到底是什么？3.hive和hadoop是什么关系？扩展：hbase和hive是什么关系？Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求

2017-03-06 15:28:25 562

转载 Hive 中内部表与外部表的区别与创建方法

先来说下Hive中内部表与外部表的区别： Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。这样外部表相对来说更加安全些，数据组织也更加灵活，方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on wr

2017-03-03 17:50:38 1080

转载 Git工作流指南：Pull Request工作流

Pull Requests是Bitbucket上方便开发者之间协作的功能。提供了一个用户友好的Web界面，在集成提交的变更到正式项目前可以对变更进行讨论。开发者向团队成员通知功能开发已经完成，Pull Requests是最简单的用法。开发者完成功能开发后，通过Bitbucket账号发起一个Pull Request。这样让涉及这个功能的所有人知道，要去做Code Review和合

2017-03-01 17:41:30 1542

中美工程师团队管理经验

中美工程师文化对比，产品导向vs纯技术导向。自下而上的创造力vs自上而下的执行力。工程师的价值定位。

2018-02-05

新媒体与深度学习

新媒体与深度学习，深度学习的数据统计、建模与算法实现。

2018-02-05

品牌广告的架构与实践

品牌广告从信息化到服务化、开放化。服务开放挑战：服务、物料、开放。

2018-02-05

架构本质和大型电商微服务实践

好的架构如优美的散文，形散神不散。高内聚，松耦合，架构的不二法则。

2018-02-05

滴滴出行大数据预测体系之目的地预测

从0到1快速搭建模型，基于互信信息选择主要特征。关键问题求解，从数据中发现规律。

2018-02-05

Storm源码分析

Apache Storm是一个分布式实时大数据处理系统。Storm设计用于在容错和水平可扩展方法中处理大量数据。它是一个流数据框架，具有最高的摄取率。

2018-02-05

spotify广告系统架构

Change in scale.Emergence of new client platforms.

2018-02-05

sql client

sql navicate install file

2016-04-22

git install file

git 64bit install file

2016-04-22

redis-64bit

redis resouse

2016-04-22

apache-maven

maven apache lastest release

2016-04-22

axure 图表组件库

axure 图表组件库，较全的表格，分页工具的提供.

2015-12-22

axure 线性图元件库组件库

axure 图表柱状图饼图线性图元件库组件库，好用的

2015-12-22

spring boot 配置redis缓存

2016-04-28

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

youzhouliu的博客

转载浅析Hadoop中的数据倾斜

转载大数据存取的选择：行存储还是列存储？

转载行存储和列存储的区别

转载传统的行存储和（HBase）列存储的区别

转载 Ambari——大数据平台的搭建利器

转载 ambari2.4.0_centos7 安装

转载 CentOS2.7升级Python到3.5后，yum和gnome-twear-tool 出现问题

转载【Hadoop】HDFS的运行原理

转载使用XShell简化跳板机到开发机的登录操作

原创 hadoop 2.7伪分布安装

转载 Hive总结（五）hive日志

转载 Hive总结（四）hive安装记录

转载 Hive总结（三）hive组件和执行过程

转载 Hive总结（二）hive基本操作

转载 Hive总结（一）hive初始

转载 Hive 中内部表与外部表的区别与创建方法

转载 Git工作流指南：Pull Request工作流

中美工程师团队管理经验

新媒体与深度学习

品牌广告的架构与实践

架构本质和大型电商微服务实践

滴滴出行大数据预测体系之目的地预测

Storm源码分析

spotify广告系统架构

sql client

git install file

redis-64bit

apache-maven

axure 图表组件库

axure 线性图元件库组件库

spring boot 配置redis缓存

中美工程师团队管理经验

新媒体与深度学习

品牌广告的架构与实践

架构本质和大型电商微服务实践

滴滴出行大数据预测体系之目的地预测

Storm源码分析

spotify广告系统架构

sql client

git install file

redis-64bit

apache-maven

axure 图表 组件库

axure 线性图 元件库 组件库

spring boot 配置redis缓存

axure 图表组件库

axure 线性图元件库组件库