- 博客(7)
- 资源 (6)
- 收藏
- 关注
原创 python通过thrift访问HBase报错Invalid method name
出现的问题在准备用python的happybase包通过thrift连接HBase,运行脚本的时候报错,报错大体如下:thrift.Thrift.TApplicationException: Invalid method name:'getTableNames'代码如下:# -*- coding: utf-8 -*-import happybasedef demo_hbase...
2018-05-30 08:52:52 3591
原创 大数据可以统计到媳妇的喜好吗?
利用大数据技术统计媳妇的喜好是一个相当不靠谱的事情,因为程序员再牛、使用再炫酷的技术去统计媳妇的喜好,都不如离开电脑陪媳妇聊会天、一起做个饭、拉拉家常、用心去感受媳妇的喜怒哀乐,给予所需、赠予所盼。既然非得要去使用技术手段得出点结论,那么也不能含糊,那么就立项做个规划吧。做个工作大体分为以下几个步骤:1、数据采集2、数据存储3、数据分类建模4、数据分析、统计、预测5...
2018-05-30 08:24:33 1320 5
原创 数据仓库架构设计的一点概念
1、数据仓库所处环节在一个成体系、结构化的数据应用场景下,数据和处理有四个层次: 操作层、数据仓库层、部门/数据集市层、个体层。(1) 操作层是指为具体业务提供实时响应的各个业务系统,比如常见的订单系统、ERP、用户中心等等具体业务系统,这些系统中的数据一般都是存入关系型数据库。它们是数据的来源。 (2) 数据仓库收集操作层各个业务系统中的数据,进行统一格式、统一计量单位,规整有序地...
2018-05-28 09:31:33 13060
原创 【十八掌●武功篇】第十掌:HiveSQL中分区筛选条件怎么写效率才最高
在写Hive SQL时,当遇到两个分区表a 和 b 相Join的时候,分区筛选条件怎么写效率才高呢?有下面三种书写方式,下面就根据三个语句的执行计划分析一下,看种写法的执行效率会更高。1、将分区筛选条件放入where中select * from his hleft join s_test s on h.ID_1=s.ID_1where h.dt='2018-05-07' a...
2018-05-23 19:13:28 3037 1
原创 【十八掌●武功篇】第十掌:参数mapreduce.job.reduce.slowstart.completedmaps
之前我所见到的hive语句在执行mapreduce job的时候,打印的日志都是当map执行到100%的时候,再执行reduce。今天在执行hive sql的时候发现map还没有执行完成,reduce任务就开始。如下图所示:开始不知道原因,后来经过度娘,发现原来在mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.complete...
2018-05-23 11:25:34 5022
原创 【十八掌●武功篇】第十掌:Hive中的Grouping Sets
自从Hive 0.10.0版本起,Hive增加了Grouping Sets、Cube、rollup操作和Grouping_ID函数。1、Grouping Sets可以在Group By语句后面添加Grouping Sets语句,以实现对同一个数据集上同时进行多组的group by操作。可以理解为多个group by 语句进行union操作。可以参考下面的例子: Groupi...
2018-05-21 18:49:16 4114
原创 【十八掌●武功篇】第十掌:根据一个错误探究MapJoin
一、出现的问题在执行一个Hive SQL的时候,遇到一个报错,语句和报错信息如下:select h.ID_1,h.ID_2,h.ID_3,h.ID_4,h.ID_5,h.ID_6,h.ID_7,h.ID_8,h.ID_9,h.change_code,h.s_date,'2018-05-07' as e_datefrom ( select ...
2018-05-21 11:26:27 856
MapReduceV2笔记
2018-05-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人