自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BabyFish13

技术、业务、生活、人生......

  • 博客(14)
  • 资源 (6)
  • 收藏
  • 关注

原创 Linux有用命令收集

1、含时间戳查看命令历史export HISTTIMEFORMAT='%F %T ';history| more2、查看文件夹和文件大小du -h --max-depth=0 dm 查看dm目录大小du -h --max-depth=1 dm 查看dm目录大小,以及dm各文件文件夹的大小du -h --max-depth=0 查看当前文件夹大小3、

2016-07-29 11:45:19 498

原创 Linux查看服务器负载

Linux的负载高,主要是由于CPU使用、内存使用、IO消耗三部分构成。任意一项使用过多,都将导致服务器负载的急剧攀升。查看服务器负载有多种命令,w、vmstat或者uptime都可以直接展示负载。[hs@master opt]$ uptime 11:00:06 up 106 days, 19:36,  3 users,  load average: 0.00, 0.03, 0

2016-07-29 11:17:24 7252

原创 查看Hive表信息及占用空间的方法

一、Hive下查看数据表信息的方法方法1:查看表的字段信息desc table_name;方法2:查看表的字段信息及元数据存储路径desc extended table_name;方法3:查看表的字段信息及元数据存储路径desc formatted table_name;方法4:查看建表语句及其他详细信息的方法show create table table_

2016-07-28 15:43:47 35590

原创 【阿里在线技术峰会】李金波:企业大数据平台仓库架构建设思路

原文地址:https://yq.aliyun.com/articles/57901?spm=5176.100239.blogcont57826.25.oaM83B摘要:在阿里巴巴在线在线技术峰会上的第三天,来自阿里云高级技术专家李金波为大家题为《企业大数据平台仓库架构建设思路》。本次分享中,李金波主要从总体思路、模型设计、数加架构、数据治理四个方面介绍了如何利用大数据平台的特性,

2016-07-22 14:42:32 3634

原创 Hive有用技巧小结

1.hive模糊搜索表show tables like '*name*';2.查看表结构信息desc formatted table_name;desc table_name;3.查看分区信息show partitions table_name;4.根据分区查询数据select table_coulm from table_name where partit

2016-07-20 16:25:58 1470

原创 Mysql用户管理及权限设置

用户管理mysql>use mysql;查看mysql> select host,user,password from user ;创建mysql> create user zx_root IDENTIFIED by 'xxxxx'; //identified by 会将纯文本密码加密作为散列值存储修改mysql>rename user feng to newu

2016-07-20 11:00:29 725

原创 MySQL权限体系

1、MySQL权限体系mysql 的权限体系大致分为5个层级:全局层级: 全局权限适用于一个给定服务器中的所有数据库。这些权限存储在mysql.user表中。GRANT ALL ON .和REVOKE ALL ON .只授予和撤销全局权限。数据库层级: 数据库权限适用于一个给定数据库中的所有目标。这些权限存储在mysql.db表中。GRANT ALL ON db_nam

2016-07-20 10:50:51 578

原创 大数据环境平台DW部分目录路径(final)

.├── bigtab_int│   ├── suppertable_int_batch.sh│   └── suppertable_int_script│       └── db99store│           ├── dwsrc2ssa_99_order.sh│           ├── sor_proc_hive+mysql_99_order.sh│   

2016-07-18 15:05:35 791

原创 Hive外部表学习

Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。需要注意的是传统数据库对表数据验证是 schema on write(写时模

2016-07-12 11:35:48 1143

原创 Hive数据倾斜问题总结

1数据倾斜的原因1.1操作:关键词:Join情形:其中一个表较小,但是key集中--->后果:分发到某一个或几个Reduce上的数据远高于平均值情形:大表与大表,但是分桶的判断字段0值或空值过多--->后果:这些空值都由一个reduce处理,灰常慢关键词:group by情形:group by 维度过小,某值的数量过多--->后果:处理某值的reduce灰常耗时

2016-07-11 16:31:06 860

原创 开源MySQL数据仓库解决方案:Infobright

Infobright是一款基于独特的专利知识网格技术的列式数据库。Infobright是开源的MySQL数据仓库解决方案,引入了列存储方案,高强度的数据压缩,优化的统计计算(类似sum/avg/group by之类),infobright 是基于mysql的,但不装mysql亦可,因为它本身就自带了一个。mysql可以粗分为逻辑层和物理存储引擎,infobright主要实现的就是一个存储引擎,但因

2016-07-04 19:34:24 7358 1

原创 Mysql数据库及表空间占用信息统计

1、mysql中查看各表的大小这里用到一个表, information_schema.tables;对应主要字段含义如下:ABLE_SCHEMA : 数据库名TABLE_NAME:表名ENGINE:所使用的存储引擎TABLES_ROWS:记录数DATA_LENGTH:数据大小INDEX_LENGTH:索引大小按记录数据统计:select table_schema,t

2016-07-04 11:07:03 7842

原创 大数据的反思:不可不知的几个小故事

自2011年以来,大数据旋风以“迅雷不及掩耳之势”席卷中国。毋庸置疑,大数据已然成为继云计算、物联网之后新一轮的技术变革热潮,不仅是信息领域,经济、政治、社会等诸多领域都“磨刀霍霍”向大数据,准备在其中逐得一席之地。中国工程院李国杰院士更是把大数据提升到战略的高度,他表示,数据是与物质、能源一样重要的战略资源。从数据中发现价值的技术正是最有活力的软技术,在数据技术与产业上的落后,将使我们像错过工业革命机会一样延误一个时代。在这样的认知下,“大数据”日趋变成大家“耳熟能详”的热词。在未来的数年里,“大数据”的

2016-07-01 18:33:34 6416 1

原创 关于大数据的几个小故事

第一个故事,搜狗热词里的商机  王建锋是某综合类网站的编辑,基于访问量的考核是这个编辑每天都要面对的事情。但在每年的评比中,他都号称是PV王。原来他的秘密就是只做热点新闻。王建锋养成了看百度搜索风云榜和搜狗热搜榜的习惯,所以,他会优先挑选热情榜上的新闻事件来编辑整理,关注的人自然多。  点评:搜狗拥有输入法,搜索引擎,那些在输入法和搜索引擎上反复出现的热词,就是搜狗热搜

2016-07-01 17:46:59 3331

有赞数据仓库元数据系统的演进(有赞Data沙龙).pdf

有赞数据仓库元数据系统的演进

2021-01-18

DM数据仓库建模

数据仓库建模的有关说明 详细的文档及解读的ppt

2019-03-22

NCR逻辑模型设计概览

逻辑模型设计 方法论;一些数据仓库建模时的参考,方法等。主要用在数据仓库体系规划、架构设计方面的参考。

2018-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除