2018年05月_鸣宇淳

07月 06月 05月 03月 02月 01月

原创 python通过thrift访问HBase报错Invalid method name

出现的问题在准备用python的happybase包通过thrift连接HBase，运行脚本的时候报错，报错大体如下：thrift.Thrift.TApplicationException: Invalid method name:'getTableNames'代码如下：# -*- coding: utf-8 -*-import happybasedef demo_hbase...

2018-05-30 08:52:52 3591

原创大数据可以统计到媳妇的喜好吗？

利用大数据技术统计媳妇的喜好是一个相当不靠谱的事情，因为程序员再牛、使用再炫酷的技术去统计媳妇的喜好，都不如离开电脑陪媳妇聊会天、一起做个饭、拉拉家常、用心去感受媳妇的喜怒哀乐，给予所需、赠予所盼。既然非得要去使用技术手段得出点结论，那么也不能含糊，那么就立项做个规划吧。做个工作大体分为以下几个步骤：1、数据采集2、数据存储3、数据分类建模4、数据分析、统计、预测5...

2018-05-30 08:24:33 1320 5

原创数据仓库架构设计的一点概念

1、数据仓库所处环节在一个成体系、结构化的数据应用场景下，数据和处理有四个层次：操作层、数据仓库层、部门/数据集市层、个体层。(1) 操作层是指为具体业务提供实时响应的各个业务系统，比如常见的订单系统、ERP、用户中心等等具体业务系统，这些系统中的数据一般都是存入关系型数据库。它们是数据的来源。 (2) 数据仓库收集操作层各个业务系统中的数据，进行统一格式、统一计量单位，规整有序地...

2018-05-28 09:31:33 13060

原创【十八掌●武功篇】第十掌：HiveSQL中分区筛选条件怎么写效率才最高

在写Hive SQL时，当遇到两个分区表a 和 b 相Join的时候，分区筛选条件怎么写效率才高呢？有下面三种书写方式，下面就根据三个语句的执行计划分析一下，看种写法的执行效率会更高。1、将分区筛选条件放入where中select * from his hleft join s_test s on h.ID_1=s.ID_1where h.dt='2018-05-07' a...

2018-05-23 19:13:28 3037 1

原创【十八掌●武功篇】第十掌：参数mapreduce.job.reduce.slowstart.completedmaps

之前我所见到的hive语句在执行mapreduce job的时候，打印的日志都是当map执行到100%的时候，再执行reduce。今天在执行hive sql的时候发现map还没有执行完成，reduce任务就开始。如下图所示：开始不知道原因，后来经过度娘，发现原来在mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.complete...

2018-05-23 11:25:34 5022

原创【十八掌●武功篇】第十掌：Hive中的Grouping Sets

自从Hive 0.10.0版本起，Hive增加了Grouping Sets、Cube、rollup操作和Grouping_ID函数。1、Grouping Sets可以在Group By语句后面添加Grouping Sets语句，以实现对同一个数据集上同时进行多组的group by操作。可以理解为多个group by 语句进行union操作。可以参考下面的例子： Groupi...

2018-05-21 18:49:16 4114

原创【十八掌●武功篇】第十掌：根据一个错误探究MapJoin

一、出现的问题在执行一个Hive SQL的时候，遇到一个报错，语句和报错信息如下：select h.ID_1,h.ID_2,h.ID_3,h.ID_4,h.ID_5,h.ID_6,h.ID_7,h.ID_8,h.ID_9,h.change_code,h.s_date,'2018-05-07' as e_datefrom ( select ...

2018-05-21 11:26:27 856