大数据
文章平均质量分 76
boat824109722
这个作者很懒,什么都没留下…
展开
-
elasticsearch系列-ES对多个字段聚合,select A,B,COUNT(*) from table group by A,B
ES对多个字段聚合,select A,B from table group by A,B假设有下表NAME SEX PROF李诚 男 副教授张旭 男 讲师王萍 女 助教刘冰 女 助教要查询select SEX,PROF,COUNT(*) from table group by SEX,PROF1、正确的答案:修改elasticsearch.yml配置文件原创 2017-12-20 14:18:18 · 38170 阅读 · 14 评论 -
Hive over HBase和Hive over HDFS性能比较分析
环境配置:hadoop-2.0.0-cdh4.3.0 (4 nodes, 24G mem/node)hbase-0.94.6-cdh4.3.0 (4 nodes,maxHeapMB=9973/node)hive-0.10.0-cdh4.3.0 一、查询性能比较:query1:select count(1) from on_hdfs;selec转载 2017-12-07 09:12:21 · 458 阅读 · 0 评论 -
hive系列-hive教程
hive教程备注:hive本身是不存储数据的,它可以把Mysql、Hdfs、Hbase等当然数据源,然后做数据处理,表面上,Hive用的是SQL,但是Hive的底层是MapReduce,它只是一个把SQL转变成MapReduce的工具,当然,有些没有查询条件的查询它只是做了数据的映射(并不执行MapReduce),这也是它做的优化。1、建表默认是内部表creat原创 2017-12-15 16:44:12 · 1132 阅读 · 0 评论 -
hive系列-hive整合hbase
hive整合hbase1、在hive控制台建库,建表(注意,int,long,boolean这些数据类型,映射时要加上#b,不然查询到的数据会是乱码或者null)create database credit_mate_data;use credit_mate_data;create external table shop_order_info(key string,原创 2017-12-15 16:45:29 · 1089 阅读 · 0 评论 -
hbase系列-HBase Scan类用法
HBase Scan类用法public static void main(String[] args) throws IOException {//Scan类常用方法说明//指定需要的family或column ,如果没有调用任何addFamily或Column,会返回所有的columns;// scan.addFamily();// scan.addC转载 2017-12-18 09:27:20 · 7472 阅读 · 0 评论 -
elasticsearch系列-elasticsearch教程
elasticsearch教程注意:1、elasticsearch的rest默认端口为9200,客户端的默认端口为9300,也就是,java编程连接的端口为9300命令模式:curl - ://返回字段说明:- took —— Elasticsearch执行这个搜索的耗时,以毫秒为单位- timed_out —— 指明这个搜索是否超时- _shard转载 2017-12-18 15:20:16 · 350 阅读 · 0 评论 -
elasticSearch系列-elasticSearch优化
1、堆内存(主机内存的一半)export ES_HEAP_SIZE=10g开机自动设置vi /etc/rc.local末尾加上export ES_HEAP_SIZE=10g检验echo $ES_HEAP_SIZE2、修改交换空间如果内存交换到磁盘上,一个100微秒的操作可能变成10毫秒vm.swappiness = 1(为0会发生内存原创 2017-12-18 15:22:16 · 419 阅读 · 0 评论 -
flume系列-flume单点集成HDFS
(spooldir)新增文件输入(往目录添加新文件),远程输出到HDFS,支持windows(这个例子在windows下完成)官网或者github下载apache-flume-1.7.0-bin.tar.gz,然后解压在E盘,添加环境变量在Flume的安装目录下的lib目录下添加如下jar包hadoop-common-2.6.0-cdh5.11.0.jarhadoop-au原创 2017-12-18 16:38:41 · 2484 阅读 · 1 评论 -
flume系列-flume负载均衡(存HDFS)
为什么不直接把客户端的数据保存到HDFS?服务端做统一的数据过滤处理比较方便(也比较规范),如果客户端量比较大,中间还可以用kafka队列做消峰处理,然后服务端再从kafka获取数据存储到HDFS1、CDH安装flume(web也没直接安装),集成HDFS,Hbase修改配置:Agent 的 Java 堆栈大小(字节) 1GHDFS目录创建(数据目录):master原创 2017-12-18 16:39:43 · 2195 阅读 · 0 评论 -
elasticsearch系列-什么是Mapping
本篇主要讲解Mapping的一些相关配置与需要注意的地方,说到Mapping大家可能觉得有些不解,其实大体上可以将Elasticsearch理解为一个RDBMS(关系型数据库,比如MySQL),那么index 就相当于数据库实例,type可以理解为表,这样mapping可以理解为表的结构和相关设置的信息(当然mapping有更大范围的意思)。默认情况不需要显式的定义mapping, 当新的原创 2017-12-19 10:21:53 · 400 阅读 · 0 评论 -
线性回归推导过程和实例
线性回归推导过程和实例把问题转化成求每个点与直线y=mx+b的方差的最小值把上面的结果展开合并相同项平均值表达式转化求m和b分别求导即可得到m和b的值实例原创 2017-12-19 14:38:37 · 3330 阅读 · 0 评论 -
用sqoop将mysql的数据导入到hive表中
1、mysql的表结构如下:CREATE TABLE `student` ( `id` int(11) NOT NULL AUTO_INCREMENT, `stu_no` varchar(16) DEFAULT NULL, `name` varchar(64) DEFAULT NULL, `age` int(11) DEFAULT '0', `birthday` date原创 2018-01-22 18:16:42 · 1255 阅读 · 0 评论 -
hbase系列-Hbase热点问题、数据倾斜和rowkey的散列设计
1、分布式与并行处理分布式系统通常,我们说分布式系统的时候,我们都会想到Dubbo框架和SpringCloud框架。这两个框架现在应该是国内用的比较多的两个分布式框架了,特点都是很容易把服务部署在多台机器组成一个高可用的服务集群来应对高并发。所以,我们通常认为分布式系统就是多台机器组成一个集群对外提供服务,每个请求也会被分配到集群中的一台或者多台机子上完成,而用户是感觉不同整个系统封装原创 2017-12-20 17:33:07 · 11630 阅读 · 4 评论 -
Hbase结构和读写过程
1、Hbase写如过程图(图片来源于网络)2、Hbase的结构Master:HBase Master用于协调多个Region Server,侦测各个RegionServer之间的状态,并平衡RegionServer之间的负载,并且分配Region给RegionServer。Region Server:一个RegionServer包含了多个Region(1原创 2018-01-31 10:55:00 · 628 阅读 · 0 评论 -
elasticsearch系列-elasticsearch及插件安装
elasticsearch及插件安装一、elasticsearch安装(所有节点)1、下载下载地址:https://www.elastic.co/cn/downloads/elasticsearch下载后放在 /opt 目录下2、解压cd /opttar -zxvf elasticsearch-5.4.1.tar.gzmv elasticsearch-5.4原创 2017-12-18 15:16:51 · 477 阅读 · 0 评论 -
合并HDFS和本地文件系统中的小文件
关键字:hadoop hdfs 小文件、appendToFile、getmerge众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小转载 2017-12-07 08:58:19 · 950 阅读 · 0 评论 -
hbase系列-hbase shell操作
hbase shell操作1、启动hbase shell./bin/hbase shell2、HBase常用命令status, version, table_help和whoamistatus命令返回包括在系统上运行的服务器的细节和系统的状态。hbase(main):009:0> statusversion该命令返回HBase系统使用的版本。hb原创 2017-12-14 09:40:43 · 764 阅读 · 0 评论 -
elasticsearch系列-elasticsearch学习心得
elasticsearch学习笔记1、基础1.1 Java API如果你正在使用 Java,在代码中你可以使用 Elasticsearch 内置的两个客户端:节点客户端(Node client)节点客户端作为一个非数据节点加入到本地集群中。换句话说,它本身不保存任何数据,但是它知道数据在集群中的哪个节点中,并且可以把请求转发到正确的节点。传输客户端(Tr原创 2017-12-20 18:06:46 · 473 阅读 · 0 评论 -
hbase系列-hbase导入导出
1、创建test1表# hbase shellhbase(main):004:0> create 'test1', 'cf'0 row(s) in 1.2450 seconds=> Hbase::Table - test12、查看创建好的表hbase(main):005:0> listtest11 row(s) in 0.0160 seconds原创 2017-12-21 17:09:22 · 814 阅读 · 0 评论 -
Kylin系列-Apache Kylin优化之—Cube的高级设置
本文从apachekylin公众号系列文章整理。随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维转载 2017-12-06 08:53:31 · 1493 阅读 · 0 评论 -
Kylin系列-Apache Kylin优化–高级设置:聚合组(Aggregation Group)原理解析
本文转自apachekylin公众号。“随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)和必要维度(Mand转载 2017-12-05 14:39:52 · 2951 阅读 · 0 评论 -
Kylin系列-Apache Kylin中对上亿字符串的精确Count_Distinct示例
上篇文章《在Apache Kylin中使用Count Distinct》中介绍了Apache Kylin中Count Distinct的实现,如果业务中能接受1.22%的误差,那么肯定首选近似算法,因为它能节省很多资源和时间。如果业务中必须使用精确去重,那么就看看本文的例子(针对上亿字符串的精确去重)。事实表hive> desc test_t_pbs_uv_fact;OKad_id转载 2017-12-05 14:37:27 · 2127 阅读 · 0 评论 -
Kylin系列-在Apache Kylin中使用Count Distinct
在OLAP多维分析中,Count Distinct(去重计数)是一种非常常用的指标度量,比如一段时间内的UV、活跃用户数等等;从1.5.3开始,Apache Kylin提供了两种Count Distinct计算方式,一种是近似的,一种是精确的,精确的Count Distinct指标在Build时候会消耗更多的资源(内存和存储),Build的过程也比较慢;近似Count Distin转载 2017-12-05 14:35:05 · 1900 阅读 · 1 评论 -
Kylin系列-Apache Kylin中使用Streaming Table构建准实时Cube
关键字:kylin、streaming tableKylin从1.5版本开始,引入了Streaming Table,目的是为了减低OLAP分析的延时(比如Druid、ElasticSearch都支持实时数据流)。Streaming Table周期性的从Kafka中读取数据,根据Model和Cube的定义,将计算好的数据写入HBase,以供查询。从1.5.2版本开始,官网上给转载 2017-12-05 14:31:07 · 2002 阅读 · 1 评论 -
Kylin系列-Caravel–一款开源OLAP+数据可视化分析前端工具,支持Druid和Kylin
关键词:caravel、olap、kylin、数据可视化Caravel(曾用名Panoramix),是由知名在线房屋短租公司Airbnb开源的一款数据探索与可视化工具,该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析。官网地址为: http://airbnb.io/caravel/Caravel介绍Caravel底层使用Python开发,与SQL转载 2017-12-05 14:29:33 · 6537 阅读 · 0 评论 -
Kylin系列-大数据分析界的“神兽”Apache Kylin有多牛?
本文作者:李栋,来自Kyligence公司,也是Apache Kylin Committer & PMC member,在加入Kyligence之前曾就职于eBay、微软。1.Apache Kylin是什么? 在现在的大数据时代,越来越多的企业开始使用Hadoop管理数据,但是现有的业务分析工具(如Tableau,Microstrategy等)往往存在很大的局限,如难以水平转载 2017-12-05 14:28:01 · 1943 阅读 · 0 评论 -
Kylin系列-Saiku结合Hive做大数据多维数据分析
前面介绍了将Saiku和Kylin结合起来做OLAP多维分析,Saiku也支持多种其他数据源,如MySQL,JDBC等,本文介绍将Saiku和Hive结合起来使用的方法,并解决期间遇到的问题。注:Saiku社区版(Saiku CE)的下载地址为:http://community.meteorite.bi/?cedownloadSaiku与HiveSaiku最新的社区转载 2017-12-05 11:24:11 · 1358 阅读 · 0 评论 -
Kylin系列-Apache Kylin原理学习之Cube的创建与Build
Cube是一种典型的多维数据分析技术,一个Cube可以有多个事实表,多个维表构成。如果您还不了解这些概念,建议您搜索下数据仓库、OLAP、Cube、星型模型、事实表、维度表等等。比如一个简单例子,分析网站流量的Cube,包含一个事实表和四个维度表:事实表可能有以下字段:天、来源ID、浏览器ID、操作系统ID、PV、PageNumber等等;其中,小时、来源ID、浏览器ID、操作系统ID转载 2017-12-05 11:22:37 · 947 阅读 · 0 评论 -
Kylin系列-使用Saiku+Kylin构建多维分析OLAP平台
关于Kylin的介绍和使用请参考之前的文章《分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例》Kylin对外提供的是SQL查询接口,基于Kylin构建OLAP多维分析系统,第一种方案是针对业务,定制开发一个前端界面,将界面上用户的选择和操作,翻译成SQL,提交给Kylin查询。另一种方案则是将Kylin与BI工具整合起来,借助BI工具,对Kylin中的Cube转载 2017-12-05 11:12:53 · 1381 阅读 · 0 评论 -
Kylin系列-分布式大数据多维分析(OLAP)引擎Apache Kylin安装配置及使用示例
关键字:olap、KylinApache Kylin是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。Kylin OLAP引擎基础框架,包括元数据(Metadata)引擎,查询引擎,Job引擎及存储引擎等,同时包括REST服务器以响应客户端请求转载 2017-12-05 11:10:39 · 1273 阅读 · 0 评论 -
【漫画解读】HDFS存储原理
根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理,非常适合Hadoop/HDFS初学者理解。一、角色出演如上图所示,HDFS存储相关角色与功能如下:Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。Namenode:元数据节点,是系统唯一的管转载 2017-12-06 09:12:45 · 336 阅读 · 0 评论 -
MapReduce系列-eclipse运行MapReduce
1、eclipse安装hadoop的插件下载 hadoop-eclipse-plugin-2.6.0.jar,将其放入 eclipse 的 \plugins 目录,并重启 eclipse,项目视图(Project Explorer)会多出一个DFS Locations文件夹,在 Window—>Show View—>Other—>MapReduce Tools—>Map/Reduce Loca原创 2018-01-29 14:38:06 · 1215 阅读 · 0 评论