- 博客(18)
- 资源 (8)
- 收藏
- 关注
原创 hive架构
hive架构图 hive:将结构化的数据文件映射到表中 。元数据库Meta store 中就存储着这种映射的信息。 元数据信息包括:表名,表上所属的数据库,表的拥有者,表的列,分区字段,表的类型(是否为内部表),表中数据所在hdfs上的目录位置。HQL语句如何转化为MapReduce? 解析器:首先将SQL字符串转化成抽象语法树AST,这一步一般用的是第三方工具库完成,比如abtlr;对AS
2017-05-27 15:06:18 525
转载 kylin介绍
Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOLAP系统,主要用于支持大数据生态圈的数据分析业务,它主要是通过预计算的方式将用户设定的多维立方体缓存到HBase中(目前还仅支持hbase),这段时间对mondrian和kylin都进行了使用,发现这两个系统是时间和空间的一个权衡吧,mondrian是一个ROLAP系统,所有的查询可以通过实时的数据库查询完成,而不
2017-05-23 16:33:47 553
转载 hadoop zookeeper hive hbase kylin等的部署
[kylin] 部署kylin服务 官网:http://kylin.apache.org/社区:https://github.com/KylinOLAP/Kylin/issueshttp://apache-kylin.74782.x6.nabble.com/ 源码:https://github.com/ap
2017-05-23 12:57:17 2321
原创 kylin初识
1、数据仓库的相关概念OLAP 大部分数据库系统的主要任务是执行联机事务处理和查询处理,这种处理被称为OLTP(Online Tra0nsaction Processing, OLTP),面向的是顾客,诸如:办事员、DBA等。而数据仓库主要面向知识工人(如经理、主管等)提供数据分析处理,这种处理被称为OLAP(Online Analysis Processing)。OLTP管理的是当前数据,比较琐
2017-05-23 10:18:44 972
原创 Hive简介与安装及语法
Hive简介Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 red
2017-05-22 15:54:40 420
转载 Secondary NameNode的作用
前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do? (需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下:Seco
2017-05-22 14:51:16 359
原创 hbase基础理论知识
1、hbase中的一下基本概念 row key(主键) 、 列族、cell和时间戳timestamp 1、主键是用来检索记录的主键,访问hbase table中的行,只有三种方式 通过单个row key访问 通过row key的range 全表扫描 2、列族在创建表的时候声明,一个列族可以包含多个列,列中的数据都是以二进制形式存在,没有数据类型。 3、HBase中通过row和col
2017-05-20 18:13:12 615
原创 Hbase简单的java接口
在这里简单介绍一下hbase的接口操作, 首先新建一个java project 项目下建一个lib文件夹,将hbase所依赖的jar包导入(在你安装hbase的lib目录下) 全选后,build path 将jar变为奶瓶。接下来就可以利用java接口来操作hbase数据库啦。 下面不多说,直接看代码package cn.master.hbase;import java.io
2017-05-20 14:49:33 617
原创 Hbase集群搭建
简单说一下hbase 1、HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目
2017-05-20 10:26:35 726
原创 Shell入门
目前自己熟悉的几个 vim a.txt //打开a.txt文件 cat a.txt //查看a.txt文件 mv a.txt b.txt //给a.txt 重新命名为b.txtchmod是一个改变用户拥有指定文件的权限的命令.r:只读,w:写,x执行 点击详细vim test.sh echo “123” chmod u+x test.sh 运
2017-05-19 13:44:05 410
原创 sqoop
1、是什么?解决了什么? sqoop是一个数据迁移的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。,sqoop语法将转化成mapreduce,底层运用还是运用的mapr
2017-05-19 10:05:45 278
原创 zookeeper集群搭建
ZooKeeper ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安
2017-05-19 09:30:34 404
原创 WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED解决方法
WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED解决方法 今天在将文件夹从一台虚拟机拷贝到另一台虚拟机时出现 REMOTE HOST IDENTIFICATION HAS CHANGED这个错误 scp -r /master/ root@master2:/ 立刻想到是ssh的问题, 然后执行ssh master mkdir /cishi 果然
2017-05-17 22:20:40 977
原创 hadoop之倒排索引
倒排索引不懂倒排索引含义的见以下链接 倒排索引详解目的:用hadoop做一个简单的倒排索引准备文件几个简单的文本文件: a.txt hello tom hello kitty hello jackb.txt hello jerry hello tom hello timc.txt hello tom hello jack实现原理分析 1、最后我
2017-05-17 15:55:08 720
原创 Hadoop Shuffle运行原理
Shufflehadoop的核心思想是MapReduce,而MapReduce的核心思想又是Shuffle。shuffle的主要工作是从Map结束到Reduce开始之间的过程,所以了解shuffle的运行原理也是必要的阶段。首先来看下面一张图。 shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。Map阶段的Shuffle 1、map端(有多个map,这里只详
2017-05-17 11:50:48 1814
原创 Combiners
Combiners怎么理解combiners? 1、每一个map可能会产生大量的输出,combiner的作用就是在map端对输出先做一次合并,以减少传输到reducer的数据量。 2、combiner最基本是实现本地key的归并,combiner具有类似本地的reduce功能。 3、如果不用combiner,那么,所有的结果都是reduce完成,效率会相对低下。使用c
2017-05-16 16:48:23 439
原创 hadoop排序
目的:用hadoop做一个简单的排序项目准备文件项目分析代码运行jar包准备文件目的文件trade_info.txt 文件含义 以上文件可以理解为某淘宝用户的收入与支出情况(简单理解) 第一列:淘宝账号 第二列:某一订单的收入 第三列:某一订单的支出(退款情况) 第四列:订单时间排序规则 对商家的总收入和总支出进行求和 按照商家的总收入从高到低进行
2017-05-16 16:43:29 659
原创 Partitioner编程
partitioner编程 目的: 针对上篇博客中输出的结果放在不同的分区中为什么要用分区? 可以按照不同的属性分别存放,统计比较方便。 例如:统计全国各个市的短信和电话使用情况,考虑到全国各地的人经常会出差,以及大量的旅游人员,比如北京的人,出差或旅游上海,他在上海的电话以及短信使用情况就会保存在离他较为近的基站中,这样,信息较为分散,查询效率比较低,使用分区,将同一个市中的短信及
2017-05-15 17:59:50 356
bok-Exploiting KG
2017-12-07
手写数字识别10000次cnn结果 (.caffemodel)
2017-11-30
haarcascade_frontalface_alt_tree.xml
2017-11-09
opencv_python-3.3.1-cp36-none-win_amd64.whl
2017-10-31
haarcascade_frontalface_alt2.xml
2017-10-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人