自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunWuKong_Hadoop的博客

每天都是战斗,像狼一样战斗。 找准定位,有魄力,有胆识,果断。 岂因环境易而易……...

原创 跟我一起学【Spark】之——Spark调优与调试

第8章Spark调优与调试 1.总结Spark的配置机制 2.理解Spark应用性能表现的基础知识、设置相关配置项、编写高性能应用设计模式 3.探讨Spark的用户界面、执行的组成部分、日志机制 8.1使用SparkConf配置Spark 1.SparkConf实例包含用户要重载的配置选...

2019-05-23 17:31:30 81 0

原创 跟我一起学【Spark】之——数据分区

前言 控制数据分布以获得最少的网络传输可以极大地提升整体性能。 如果给定RDD只需要被扫描一次(例如大小表join中的小表),我们完全没有必要对其预先进行分区处理,只有当数据集多次在诸如连接这种基于键的操作中使用时(大表),分区才有帮助。 尽管Spark没有给出显示控...

2019-01-11 13:08:54 139 0

原创 Hive与HBase整合(实例)

  实例1 1.先在Hbase中创建表(三列族): create 'ceshi7', {NAME=>'TIME',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=&g...

2019-01-04 11:48:33 192 0

原创 Hive的静态分区和动态分区

虽然之前已经用过很多次hive的分区表,但是还是找时间快速回顾总结一下加深理解. 举个栗子,基本需求就是Hive有一张非常详细的原子数据表original_device_open,而且还在不断随着时间增长,那么我需要给它进行分区,为什么要分区?因为我想缩小查询范围,提高速度和性能. 分区其实是...

2018-12-28 17:19:31 140 0

原创 跟我一起学【Mysql】之——修改sql_mode

1.报错内容: this is incompatible with sql_mode=only_full_group_by 2.修改配置文件: 3.my.ini没有的话,新建一个,附上内容(根据自身情况灵活配置): [mysqld] # 设置3306端口 port=3306 # 设...

2020-05-18 11:07:05 25 0

转载 HIVE关键字清单

因项目需要识别出Hive的关键字,特从Hive官网中扣下来的。如坚持使用关键字,文章最末有解决方案。 Keywords, Non-reserved Keywords and Reserved Keywords Keywords ADD,ADMIN,AFTER,ALL,ALTER,AN...

2020-05-13 10:15:30 29 0

原创 跟我一起总结【数据仓库】之——数据模型记分卡

数据模型记分卡 正确性: 找到模型的评审记录及建议,与模型比较 找到已创建的用户故事,与模型比较 找到已经分析的数据库或接口设计,与模型比较 检查已确保选择了正确的业务范围 检查以确保模型遵循了现有标准 完整性: 确认获得了所有的业务元数据 确认获得了所有的技术元数据 确...

2019-12-23 16:09:54 107 0

原创 跟我一起总结【数据仓库】之——实施经验

在这次分享会开始之前,对所有战斗在项目第一线及奔赴现场的同学们,真切的道一声辛苦了! 本次的分享涵盖了 交付物、数据仓库设计、需求变更及处理方法、问题记录 1.交付物: 《库表检查记录》 《API接口文档》 《数据架构图》 《数仓资源访问方式》数据库类型、数据库位置,面向的是不会使用数据库的客户...

2019-12-23 15:57:08 123 0

原创 跟我一起总结【数据仓库】之——设计文档检查项

1.枚举值:检查“归集库”字段中文注释,是否包含分号、冒号、顿号、斜杠/反斜杠,数字0,1,2(方便标准层及基础层使用) 检查方法:对“字段名称”查找,截取后放到“枚举值”或“注释”2.明细表表名命名里包含动词 检查方法:核对后,逐个修改3.原子信息表“中文表名”需要清楚展现释义 检查方法:形如:...

2019-12-23 15:34:39 58 0

原创 跟我一起学【数据仓库】之——数据管理知识体系

1.数据建设思维云 2数据管理十大职能-其四 3-1数据开发-建模方法引导 3-2.实体、非独立实体、业务规则 3-3.数据开发-物理数据库交付物 ​​​ 3-4.数据开发-数据项目实施​​​ 4-1.数据仓库-为什么要维度建模?​​​ 4-2. 数据仓库-建库方法​​​ ...

2019-10-24 09:34:20 130 0

原创 跟我一起学【Hadoop】之——经典场景分析

1.hive 切片表和历史分区表 查询效率的测试 hive分区表陷阱(不load数据到hive,而是put数据到hdfs分区目录下,hive查不到数据) 解决方法(msck repair table table_name;):https://yq.aliyun.com/articles/513...

2019-09-10 14:47:29 981 0

转载 跟我一起学【PowerDesigner】之——建模

第一种方法:概念模型转物理模型 1、首先新建模型--选择概念模型(CDM) 2、新建实体(学生和卡),设置相应的属性 3、一共四种关系(1:1,1:n,n:1,n:n),根据自己需要建立关系 4、建立好各个实体之间的关系之后,我们就可以转换成物理模型了:工具-generatePDM ...

2019-09-10 14:36:22 81 0

原创 跟我一起学【Hdfs】之——运维篇 删除过期文件

查看数据步骤 : 按照时间倒序: hdfs dfs -ls /tmp | sort -k6,7 查看非文件夹: hdfs dfs -ls /tmp ls -l |grep -vn "^d" 查看文件夹: hdfs dfs -ls /tmp ls -l |grep ...

2019-09-06 17:57:14 57 0

转载 跟我一起学【Linux】之——find命令用法大全

Linux查找命令是Linux系统中最重要和最常用的命令之一。查找用于根据与参数匹配的文件指定的条件来搜索和查找文件和目录列表的命令。查找可以在各种条件下使用,您可以通过权限,用户,组,文件类型,日期,大小等可能的条件查找文件。本文将分为五个部分,从基本到提前使用find命令。 第一...

2019-09-06 17:37:00 41 0

转载 跟我一起学【Python3】之——百度ai+Tesseract-OCR识别图片文字和数字

1.安装python包 pip install pillow pip install pytesser3 pip install pytesseract pip install wheel pip install baidu-aip pip install keyboard 2.安装Tess...

2019-08-15 14:41:37 107 0

原创 跟我一起学【HDFS】之——hdfs统计文件夹存储

hadoop fs 更多用法,请参考官网:传送门!!!!!!! #列出路径下的内容 [root@guoxin01 bin]# hadoop fs -ls / Found 17 items drwxrwx---+ - hive hive 0 2019-02-...

2019-07-25 10:30:44 102 0

转载 跟我一起学【Spark】之——rdd.filter(_.contains("1")).count()详解

形如:rdd.filter(_.contains("1")).count() _.contains("1") //目的是获取包含“1”的行 rdd.filter(_.contains("1")).count()// 计算rdd中包含“...

2019-07-17 10:04:48 131 0

转载 跟我一起学【Hadoop开发】之—— hadoop的GenericOptionsParser类

GenericOptionsParser 命令行解析器 是hadoop框架中解析命令行参数的基本类。它能够辨别一些标准的命令行参数,能够使应用程序轻易地指定namenode,jobtracker,以及其他额外的配置资源 有篇日志写的很好,自己就不赘述了:传送门 例子: 最简单的在WordC...

2019-07-12 17:58:20 143 0

转载 跟我一起学【PostgreSQL】之——临时表(temporary table)的特性和用法

熟悉Oracle的人,相比对临时表(temporary table)并不陌生,很多场景对解决问题起到不错的作用,开源库Postgresql中,也有临时表的概念,虽然和Oracle中临时表名字相同,使用方法和特性也有类似的地方,但还是有很多不同的方面,下面就对比Oracle中临时表举例说明下。 1...

2019-06-28 11:57:26 125 0

转载 跟我一起学【Sqoop】之——sqoop增量导入并按时间分区

# 变量设置,之后应该是传入参数 mdb='kaipao' hdb='zhengyuan' table='water_friend_rel' check_col='create_time' ds='2019...

2019-06-25 18:07:43 249 0

转载 跟我一起学【Kafka】之——Kafka常用命令

Kafka常用命令 以下是kafka常用命令行总结: 1.查看topic的详细信息 ./kafka-topics.sh-zookeeper127.0.0.1:2181-describe-topictestKJ1 2、为topic增加副本 ./kafka-reassign-partiti...

2019-06-21 22:08:40 76 0

转载 跟我一起学【Python3】之——常见爬虫框架

一般比较小型的爬虫需求, 我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题。相对比较大型的需求才使用框架,主要是便于管理以及扩展等。 一、爬虫技术库-urllib.request和requests库的使用(简单) 1. request...

2019-06-19 00:36:44 163 0

转载 跟我一起学【Hadoop】之——Hive和HBase有哪些区别与联系及适用场景

在学大数据分析的过程中,Hive和HBase是两个非常重要的内容,对于初学者而言容易混淆。所以比较两者的联系与差别,能够帮助我们对这两个组件有一个清晰的认识和定位。那么,Hive和HBase有哪些区别与联系以及适用于哪些场景呢? 首先还要从两者的概念入手: Hive是运行在Hadoop上的一个...

2019-06-19 00:14:49 121 0

转载 跟我一起学【PostgreSQL】之——时间相关

1、以下方法只能获取当前年份: selectto_char(current_date,'yyyy')为 character varying格式类型 select extract(year from now())为double precision 格式类型 select to...

2019-06-15 18:08:04 64 0

转载 跟我一起学【PostgreSQL】之——获取日期时间、截取年、月、日

一、获取系统时间函数 1.1 获取当前完整时间 select now(); select current_timestamp; --也是一样的效果 1.2 获取当前日期 select current_date; 1.3 获取当前时间 select cu...

2019-06-15 18:00:40 2596 1

转载 跟我一起学【数据仓库】之——为什么要维度建模

凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花...

2019-06-14 11:31:25 360 0

转载 跟我一起学【数据仓库】之——保存历史数据方法——拉链表

一、数据仓库 数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合,用于支持管理决策。 l 面向主题:传统的数据库是面向事务处理的,而数据仓库是面向某一领域而组织的数据集合,主题是指用户关心的某一联系紧密的集合。 l 集成:数据仓库中数据来源于各个离散的业务系统数据库、外部数...

2019-06-13 10:51:25 237 0

转载 跟我一起学【数据仓库】之——星型模型 VS 雪花型模型

一、概述 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型,如图 1 。 ...

2019-06-13 09:55:12 427 0

转载 跟我一起学【数据仓库】之——Inmon VS Kimball数仓理论

Inmon和Kimball是数据仓库领域伟大的开拓者,他们均多年从事数据仓库的研究,Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点...

2019-06-13 09:49:22 195 0

转载 pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html 打开激活窗口 选择 Activate new license

pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html 打开激活窗口 选择 Activate new license with: License server (用license server 激活) 在 Licen...

2019-06-05 20:47:11 3702 0

转载 跟我一起学【数据仓库】之——数据仓库建设步骤

1.系统分析,确定主题 确定一下几个因素: ·操作出现的频率,即业务部门每隔多长时间做一次查询分析。 ·在系统中需要保存多久的数据,是一年、两年还是五年、十年。 ·用户查询数据的主要方式,如在时间维度上是按照自然年,还是财政年。 ·用户所能接受的响应时间是多长、是几秒钟,还是几小时。 2.选择...

2019-06-05 10:07:25 347 0

转载 跟我一起学【数据仓库】之——hive数据仓库设计中的拉链表、增量表、全量表

1)存量、流量、增量 (1)存量:系统在某一时点时的所保有的数量; (2)流量:是指在某一段时间内流入/出系统的数量 (3)增量:则是指在某一段时间内系统中保有数量的变化 (4)增量=流入量--流出量 (5)本期期末存量=上期期末存量+本期内增量 2)拉链表:注意事项 (1)记录一个事物从开始...

2019-06-04 18:29:07 148 0

转载 数据仓库系列-为什么要维度建模

凡是建设数据仓库,一定会提到维度建模方法。这一方法是Kimball最先提出的,其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中,维度是描述事实的角度,如日期、商品、地址等,事实是要度量的指标,如用户数、销售额等。按照一般书籍的介绍,维度建模还会分为星型模型、雪花...

2019-06-04 17:14:58 164 0

转载 如何识别个人发展领域?

知道自己想成为什么样的人,建立自己的个人愿景,这是个人发展的第一步。下一步就是了解你现在所在的位置,从这点对标目标,就能识别出哪些领域,每个领域当中其中哪些能力和技能需要提高。具体如下: 01 自我认知 即了解自己的长处,短处,与实现目标所需要的技能和能力对比,发现差距。差距就是需要发展,...

2019-06-04 10:15:07 180 0

转载 个人发展分析:SWOT

在《如何识别个人发展领域?》解释了个人发展,我们需要有自我认知,需要了解自己的长处和短处,这将影响你选择提高自己的方式。 在此,介绍SWOT分析法用于全面了解自己。SWOT是通过分析优势,劣势,机会和威胁来了解你(或你组织)的发展情况。企业界使用它作为战略规划工具。SWOT分析同样也适用于个人层...

2019-06-04 10:09:21 2730 0

原创 CQL开发

需求:对Storm进行CQL二次开发 CQL,持续查询语言,用于数据流上的查询语言。 相对于标准SQL,CQL加入了窗口的概念,使得数据可以一直保存在内存中,由此可以快速进行大量内存计算 特点: 使用简单 语法与标准SQL类似 功能丰富 包含标准SQL的各类基本表达式,特...

2019-05-24 17:44:59 144 0

原创 Kerberos原理

步骤原理说明: 1.应用程序在提交任务或者作业前,需要向Kerberos服务申请TGT,用于建立和Kerberos服务器的安全会话。 2.Kerberos服务在收到TGT请求后,会解析其中的参数来生成对应的TGT,使用客户端指定的用户名的秘钥进行加密响应信息。 3.应用客户端收到TGT响应信...

2019-05-24 16:31:45 69 0

转载 跟我一起学Oozie之——客户端常用命令

1.提交作业,作业进入PREP状态 oozie job -oozie http://localhost:11000/oozie -config job.properties -submit job: 14-20090525161321-oozie-joe 2.执行已提交的作业 oozi...

2019-05-17 11:09:16 104 0

转载 跟我一起学Oozie之——入门

Oozie概要: Oozie是用于 Hadoop 平台的开源的工作流调度引擎。    是用来管理Hadoop作业。    是属于web应用程序,由Oozie client和Oozie Server两个组件构成。 Oozie Server运行于Java Servlet容器(Tomcat)中的web...

2019-05-17 11:04:12 121 0

原创 跟我一起学Spark之——在集群上运行Spark

7.2运行时架构 7.2.5小结 在集群上运行Spark应用的详细过程: 1.用户通过spark-submit脚本提交应用。 2.spark-submit脚本启动驱动器程序,调用用户定义的main()方法。 3.驱动器程序与集群管理器通信,申请资源以启动执行器节点。 4.集群管理器为驱...

2019-05-13 17:05:48 55 0

提示
确定要删除当前文章?
取消 删除