大数据
文章平均质量分 92
sinadrew
每天进步一点点
展开
-
数据建模方法论
如何理解数据仓库从事数据开发后,再回头来看一看数据仓库的定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。那么如何理解这几个关键词:面向主题的:主题(topic),即分类,专题分析。这里引入了主题模型的思想,实际操作中将数据按照业务线、业务模块层层细分。比如先划分大的业务域,每个业务域再按照业务过程划分数据域(一级、二级、三级数据域)。集成的:数仓系统和生产系统通常是隔离的,把跨源的、分散的多个业务DB的数据同步到数仓系统,按照一系列模...原创 2021-08-23 01:51:30 · 1539 阅读 · 0 评论 -
Proxmox集群网络配置
用过vmware和virtualbox的人大概都知道虚拟机是怎么回事儿,这种虚拟化软件通常装在windows环境下,而且是单机环境。那么随着云计算与大数据的发展,虚拟化技术也是得到了极大的发展,比如分布式的虚拟化软件OpenStack和Proxmox VE等。对于这4种常用的虚拟化软件我的使用感受就是在windows上virtualbox比vmware好用,服务器上Proxmo...原创 2018-12-16 20:14:10 · 29769 阅读 · 2 评论 -
Spark SQL的ThriftServer服务和图形化客户端
通常我们是在控制台输入命令:spark-sql进入命令行界面:这是大多数人最喜欢用的,也最熟悉的界面。除了这种方式,还可以借助第三方的客户端来接入Spark SQL,常用的windows下图形客户端有:SQuirreL SQL Client、DbVisualizer和Oracle SQL Developer等。那么这三个图形界面都是用的ThriftServer作为服务端,而客户端的SQL请求实际是...原创 2018-05-26 00:28:34 · 4812 阅读 · 2 评论 -
spark之kryo 序列化
几乎所有的资料都显示kryo 序列化方式优于java自带的序列化方式,而且在spark2.*版本中都是默认采用kryo 序列化。因此本文将做kryo 做一个测试以验证其性能。1.先给出定义: 把对象转换为字节序列的过程称为对象的序列化。 把字节序列恢复为对象的过程称为对象的反序列化。通俗地说序列化就是把内存(jvm)中一个对象的状态通过网络传输,或者保存到磁盘上,反序列化与之相反。2....原创 2018-05-26 00:12:19 · 10506 阅读 · 2 评论 -
Spark读取hbase表的几种方式
刚刚五一节,差点忘了还有个博客需要更新,赶紧上来码点字。开工把!!!环境:hadoop3.0+Spark2.2+hbase1.2+phoenix4.12基本上是都是比较新的环境,而且也比较稳定。但是hbase相对来说有点老了,但也还好。这个版本的hbase1.2还没有提供spark直接访问的api,我在github上面看到新版的提供了,但是没安装成功(:-),于是将就了。在spark中读取hbas...原创 2018-05-02 22:47:24 · 23365 阅读 · 3 评论 -
Storm 多语言支持
Storm作为真正的实时流处理系统比spark的伪实时流更好。Storm用java开发很方便,但是除了支持java语言,还支持其他多种语言。1.对于JVM语言比较简单, 直接提高DSL封装Java即可。2.对于非JVM语言就稍微复杂一些, Storm分为两部分, topology和component(blot和spout):对于topology用其他语言实现比较easy, 因为nimbus是thr...原创 2018-04-22 22:10:17 · 2183 阅读 · 0 评论 -
Spark sql 数据迁移
数据迁移当然可以使用sqoop,但是我使用的时候发现配置不当有很多错误,使用起来很麻烦,于是自己就用了最原始的方法来迁移数据,熟练步骤了其实也很快,给大家一个参考一、迁移一张表查看表结构:desc table tb1;查看建表sql语句:show create tabletb1;1.同一个数据仓库中复制表和数据,使用CTAS语句;常用的三种方案:a.完全复制拷贝:create table tb2 ...原创 2018-04-12 22:05:40 · 2724 阅读 · 0 评论 -
Phoenix命令及语法
基本命令:首先sqlline.py lyy1,lyy2,lyy3,lyy4:2181登录到Phoenix的shell中,可以使用正常的SQL语句进行操作。!table查看表信息 !describe tablename可以查看表字段信息!history可以查看执行的历史SQL!dbinfo!index tb;查看tb的索引help查看其他操作导入数据: 在phoenix 目录下执行hado...原创 2018-04-12 17:16:32 · 24228 阅读 · 0 评论 -
Hbase+Phoenix 安装及基本操作
1.安装Hbase: 解压:tar-zxvf hbase-1.2.1-bin.tar.gz 重命名:mvhbase-1.2.1 hbase 2.配置环境变量exportJAVA_HOME=/usr/local/software/jdk1.8.0_66exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar...原创 2018-04-12 17:08:31 · 6855 阅读 · 1 评论 -
hadoop+Spark+hbase集群动态增加节点
如果一个集群资源不够用需要扩展的时候怎么办,那么是可以不关机动态扩展的,具体操作如下:已有集群:192.168.111.11 lyy1 ---master节点192.168.111.12 lyy2192.168.111.13 lyy3192.168.111.14 lyy4新增:192.168.111.15 lyy5192.168.111.16 lyy6开始:1.从lyy1节点克隆出两台...原创 2018-04-17 11:38:47 · 924 阅读 · 0 评论 -
Hbase压缩文件
首先来点Hbase常用命令:查看所有表:list查看表结构 describe 'stu'统计条数:count 'stu', INTERVAL => 100000hbase org.apache.hadoop.hbase.mapreduce.RowCounter 'stu'清空表:truncate 'stu'删除表:disable 'int_s6a'drop 'int...原创 2018-04-15 23:29:52 · 934 阅读 · 0 评论 -
Spark SQL常用读写接口
Spark2.0以后都是SparkSession作为程序入口的,这样的好处是便于使用Dataset<Row>的接口。按照日常需求,将其大致分为三类:1.读接口,即取数据2.写接口,即存数据3.操作接口,即计算数据这三类大致将Spark使用频率很高一些方法整理到一起,可以在使用的时候方便查阅。-----end-----...原创 2018-04-15 23:06:09 · 1691 阅读 · 0 评论