SunWuKong_Hadoop-CSDN博客

原创跟我一起学【Spark】之——Spark调优与调试

第8章Spark调优与调试1.总结Spark的配置机制2.理解Spark应用性能表现的基础知识、设置相关配置项、编写高性能应用设计模式3.探讨Spark的用户界面、执行的组成部分、日志机制8.1使用SparkConf配置Spark1.SparkConf实例包含用户要重载的配置选项的键值对。Spark中的每个配置选项都是基于字符串形式的键值对。调用set()方法来添加配...

2019-05-23 17:31:30 380

原创跟我一起学【Spark】之——数据分区

前言控制数据分布以获得最少的网络传输可以极大地提升整体性能。如果给定RDD只需要被扫描一次（例如大小表join中的小表），我们完全没有必要对其预先进行分区处理，只有当数据集多次在诸如连接这种基于键的操作中使用时（大表），分区才有帮助。尽管Spark没有给出显示控制每个键具体落在哪一个工作节点上的方法，但是Spark可以确保同一组的键出现在...

2019-01-11 13:08:54 641

原创 Hive与HBase整合（实例）

实例11.先在Hbase中创建表（三列族）：create 'ceshi7',{NAME=>'TIME',VERSIONS=>1,BLOCKCACHE=>true,BLOOMFILTER=>'ROW',COMPRESSION=>'SNAPPY',DATA_BLOCK_ENCODING => 'PREFIX_TREE', BLOCKSIZE =&...

2019-01-04 11:48:33 509

原创跟我一起学【Hive】之——静态分区、动态分区

虽然之前已经用过很多次hive的分区表，但是还是找时间快速回顾总结一下加深理解.举个栗子，基本需求就是Hive有一张非常详细的原子数据表original_device_open，而且还在不断随着时间增长，那么我需要给它进行分区，为什么要分区?因为我想缩小查询范围，提高速度和性能.分区其实是物理上对hdfs不同目录进行数据的load操作，0.7之后的版本都会自动创建不存在的hdfs的目录，不...

2018-12-28 17:19:31 534

原创跟我一起学【Powerdesigner】之——导入EXCEL生成逻辑模型

表结构如图：中文表名英文表名字段编码字段名称字段注释字段类型是否主键是否可空主键是否自增 user1 用户信息表1 id id id int(10) Y Y Y user1 用户信息表1 name 用户名用户名 varchar(100) N Y user1 用户信息表1 password 密码密码 .

2021-01-15 17:47:16 1315 2

1.在事实表中放入文本属性2.限制使用冗长的描述符以节省空间3.将层次（级联的多对一关系序列）划分为多个维度4.忽略跟踪维度的变化合理运用缓慢变化维度的类型，或者微型维度5.使用更多的硬件解决遇到的性能问题硬件昂贵，要考虑使用语句或调参层面的技术，主动调优。6.使用操作型键连接维度和事实不要使用包含日期的的操作型键声明为维度键。应考虑使用代理键（简单的整数型1到N顺序排列），日期维度是这一规则的唯一例外。7.忽视对事实粒度的声明，并混淆事实粒度8.使用报表设计维度模

2020-07-15 17:13:49 511

原创跟我一起学【MySql】之——MySql关键字

下面列出MySQL所有关键字，希望给使用MySQL的朋友提供一些参考帮助。ADD ALL ALTER ANALYZE AND AS ASC ASENSITIVE BEFORE BETWEEN BIGINT BINARY BLOB BOTH BY CALL CASCADE CASE CHANGE CHAR CHARACTER CHECK COLLATE COLUMN CONDIT

2020-07-14 10:33:22 336

转载跟我一起总结【数据仓库】之——数据治理、数据管理、数据资源与数据资产管理对比

前言随着信息技术的不断涌现和普及，业务发展加快了数据膨胀的速度，行业内衍生了较多的新名词，如数据治理、数据管理、数据资源管理、数据资产管理等名词的定义很多，概念容易混淆，本文对这些名词术语及内涵进行系统的解析，便于读者对数据相关的概念有全面的认识。一数据与数据管理（Data and Data Management）1.1数据数据（Data）是指所有能输入到计算机并被计算机程序处理的符号的介质的总称，是用于输入电子计算机进行处理，具有一定意义的数字、字母、符号和模拟量...

2020-06-08 10:59:19 2502

原创跟我一起学【Mysql】之——修改sql_mode

1.报错内容：this is incompatible with sql_mode=only_full_group_by2.修改配置文件：3.my.ini没有的话，新建一个，附上内容（根据自身情况灵活配置）：[mysqld]# 设置3306端口port=3306# 设置mysql的安装目录basedir=E:\Program Files\mysql\mysql-8.0.11-winx64# 设置mysql数据库的数据的存放目录datadir=E:\Program File

2020-05-18 11:07:05 453

转载 HIVE关键字清单

因项目需要识别出Hive的关键字，特从Hive官网中扣下来的。如坚持使用关键字，文章最末有解决方案。Keywords, Non-reserved Keywords and Reserved KeywordsKeywords ADD,ADMIN,AFTER,ALL,ALTER,ANALYZE,AND,ARCHIVE,ARRAY,AS,ASC,AUTHORIZATION,BEFORE,BETWEEN, BIGINT,BINARY,BOOLEAN,BOTH,BUCKET,BUCKETS,

2020-05-13 10:15:30 4062

原创跟我一起总结【数据仓库】之——数据模型记分卡

数据模型记分卡正确性：找到模型的评审记录及建议，与模型比较找到已创建的用户故事，与模型比较找到已经分析的数据库或接口设计，与模型比较检查已确保选择了正确的业务范围检查以确保模型遵循了现有标准完整性：确认获得了所有的业务元数据确认获得了所有的技术元数据确认获得了所有的需求确认没有提供免费的服务确认看清了所有模糊的需求结构一致性...

2019-12-23 16:09:54 866

原创跟我一起总结【数据仓库】之——实施经验

在这次分享会开始之前，对所有战斗在项目第一线及奔赴现场的同学们，真切的道一声辛苦了！本次的分享涵盖了交付物、数据仓库设计、需求变更及处理方法、问题记录1.交付物：《库表检查记录》《API接口文档》《数据架构图》《数仓资源访问方式》数据库类型、数据库位置，面向的是不会使用数据库的客户。《数据仓库设计文档》贴源层-标准层-基础数据层-集市层-应用层，(Excel结构参照模板)《数据...

2019-12-23 15:57:08 738

原创跟我一起总结【数据仓库】之——设计文档检查项

1.枚举值：检查“归集库”字段中文注释，是否包含分号、冒号、顿号、斜杠/反斜杠，数字0,1,2（方便标准层及基础层使用）检查方法：对“字段名称”查找，截取后放到“枚举值”或“注释”2.明细表表名命名里包含动词检查方法：核对后，逐个修改3.原子信息表“中文表名”需要清楚展现释义检查方法：形如：【b_st_yz_jjh_基本信息】需要修改为【基金会基本信息】4.字段及注释完整，不含有歧义，不...

2019-12-23 15:34:39 442

原创跟我一起学【数据仓库】之——数据管理知识体系

1.数据建设思维云2数据管理十大职能-其四3-1数据开发-建模方法引导3-2.实体、非独立实体、业务规则3-3.数据开发-物理数据库交付物3-4.数据开发-数据项目实施4-1.数据仓库-为什么要维度建模？4-2. 数据仓库-建库方法5.元数据管理-一图解析元数据、主数据与参考数据6.元数据管理-元数据类型...

2019-10-24 09:34:20 506

原创跟我一起学【Hadoop】之——经典场景分析

1.hive 切片表和历史分区表查询效率的测试hive分区表陷阱（不load数据到hive，而是put数据到hdfs分区目录下，hive查不到数据）解决方法（msck repair table table_name;）：https://yq.aliyun.com/articles/513814答案：分区表是hdfs上以文件夹的形式存在，为了提高查询效率。2.hive脚本定时执行的...

2019-09-10 14:47:29 1231

转载跟我一起学【PowerDesigner】之——建模

第一种方法：概念模型转物理模型1、首先新建模型--选择概念模型（CDM）2、新建实体（学生和卡），设置相应的属性3、一共四种关系（1：1，1：n，n:1，n:n），根据自己需要建立关系4、建立好各个实体之间的关系之后，我们就可以转换成物理模型了：工具-generatePDM5、设置数据库：在设计面板空白处，右键-属性（properties）6、生成数据库，设置...

2019-09-10 14:36:22 389

原创跟我一起学【Hdfs】之——运维篇删除过期文件

查看数据步骤：按照时间倒序：hdfs dfs -ls /tmp | sort -k6,7 查看非文件夹：hdfs dfs -ls /tmp ls -l |grep -vn "^d"查看文件夹：hdfs dfs -ls /tmp ls -l |grep "^d"删除文件：hadoop fs -rm -f /tmp/ffc341534d42473fbc9c817f4db...

2019-09-06 17:57:14 704 1

转载跟我一起学【Linux】之——find命令用法大全

Linux查找命令是Linux系统中最重要和最常用的命令之一。查找用于根据与参数匹配的文件指定的条件来搜索和查找文件和目录列表的命令。查找可以在各种条件下使用，您可以通过权限，用户，组，文件类型，日期，大小等可能的条件查找文件。本文将分为五个部分，从基本到提前使用find命令。第一部分：查找名称查找文件的基本查找命令第二部分：根据他们的权限查找文件 ...

2019-09-06 17:37:00 410

转载跟我一起学【Python3】之——百度ai+Tesseract-OCR识别图片文字和数字

1.安装python包pip install pillowpip install pytesser3pip install pytesseractpip install wheelpip install baidu-aippip install keyboard2.安装Tesseract-OCR3.源码from aip import AipOcrimport key...

2019-08-15 14:41:37 690

原创跟我一起学【HDFS】之——hdfs统计文件夹存储

hadoop fs 更多用法，请参考官网：传送门！！！！！！！#列出路径下的内容[root@guoxin01 bin]# hadoop fs -ls /Found 17 itemsdrwxrwx---+ - hive hive 0 2019-02-21 19:27 /appsdrwxrwxrwx+ - mapred hadoop ...

2019-07-25 10:30:44 563

转载跟我一起学【Spark】之——rdd.filter(_.contains("1")).count()详解

形如：rdd.filter(_.contains("1")).count()_.contains("1") //目的是获取包含“1”的行rdd.filter(_.contains("1")).count()// 计算rdd中包含“1” 的行的总数例如：rdd行编号数据 1 1 2 21 rdd.filter(_.contains("1")).co...

2019-07-17 10:04:48 2239

转载跟我一起学【Hadoop开发】之—— hadoop的GenericOptionsParser类

GenericOptionsParser 命令行解析器是hadoop框架中解析命令行参数的基本类。它能够辨别一些标准的命令行参数，能够使应用程序轻易地指定namenode，jobtracker，以及其他额外的配置资源有篇日志写的很好，自己就不赘述了：传送门例子：最简单的在WordCount中用到了：Configuration conf = new Configuration(...

2019-07-12 17:58:20 1052

转载跟我一起学【PostgreSQL】之——临时表（temporary table）的特性和用法

熟悉Oracle的人，相比对临时表（temporary table）并不陌生，很多场景对解决问题起到不错的作用，开源库Postgresql中，也有临时表的概念，虽然和Oracle中临时表名字相同，使用方法和特性也有类似的地方，但还是有很多不同的方面，下面就对比Oracle中临时表举例说明下。1、Postgresql 临时表的会话隔离性Oracle中的临时表，创建后，虽然各个会话间的数据是互...

2019-06-28 11:57:26 667

转载跟我一起学【Sqoop】之——sqoop增量导入并按时间分区

# 变量设置，之后应该是传入参数mdb='kaipao'hdb='zhengyuan'table='water_friend_rel'check_col='create_time'ds='2019-04-22'# 1.判断hive中是否有分区表hive -e "show columns from ${hdb}.${table}_di" |grep -v 'WARN:' &g...

2019-06-25 18:07:43 1304

转载跟我一起学【Kafka】之——Kafka常用命令

Kafka常用命令以下是kafka常用命令行总结：1.查看topic的详细信息./kafka-topics.sh-zookeeper127.0.0.1:2181-describe-topictestKJ1 2、为topic增加副本./kafka-reassign-partitions.sh-zookeeper127.0.0.1:2181-reass...

2019-06-21 22:08:40 248

转载跟我一起学【Python3】之——常见爬虫框架

一般比较小型的爬虫需求，我是直接使用requests库 + bs4就解决了，再麻烦点就使用selenium解决js的异步加载问题。相对比较大型的需求才使用框架，主要是便于管理以及扩展等。一、爬虫技术库-urllib.request和requests库的使用（简单）1. requests库import requestsheaders = { 'User-Agent': 'Mozil...

2019-06-19 00:36:44 517

转载跟我一起学【Hadoop】之——Hive和HBase有哪些区别与联系及适用场景

在学大数据分析的过程中，Hive和HBase是两个非常重要的内容，对于初学者而言容易混淆。所以比较两者的联系与差别，能够帮助我们对这两个组件有一个清晰的认识和定位。那么，Hive和HBase有哪些区别与联系以及适用于哪些场景呢？首先还要从两者的概念入手：Hive是运行在Hadoop上的一个工具，准确地讲是一个搜索工具。当对海量数据进行搜索时，Hadoop的计算引擎是MapRe...

2019-06-19 00:14:49 568

转载跟我一起学【PostgreSQL】之——时间相关

1、以下方法只能获取当前年份：selectto_char(current_date,'yyyy')为 character varying格式类型select extract(year from now())为double precision 格式类型select to_char((SELECT now()::timestamp),'yyyy')为character v...

2019-06-15 18:08:04 391

转载跟我一起学【PostgreSQL】之——获取日期时间、截取年、月、日

一、获取系统时间函数1.1 获取当前完整时间select now();select current_timestamp; --也是一样的效果1.2 获取当前日期select current_date;1.3 获取当前时间select current_time;时间字段的截取取年份select extract(year ...

2019-06-15 18:00:40 13179 1

转载跟我一起学【数据仓库】之——为什么要维度建模

凡是建设数据仓库，一定会提到维度建模方法。这一方法是Kimball最先提出的，其最简单的描述就是，按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中，维度是描述事实的角度，如日期、商品、地址等，事实是要度量的指标，如用户数、销售额等。按照一般书籍的介绍，维度建模还会分为星型模型、雪花模型等，各有优缺点，但很少直接回答一个问题，也就是数据仓库为什么要采用维度建模？这个问题的基本判断...

2019-06-14 11:31:25 1344

转载跟我一起学【数据仓库】之——保存历史数据方法——拉链表

一、数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，用于支持管理决策。l 面向主题：传统的数据库是面向事务处理的，而数据仓库是面向某一领域而组织的数据集合，主题是指用户关心的某一联系紧密的集合。l 集成：数据仓库中数据来源于各个离散的业务系统数据库、外部数据、非结构化数据的集合，数据仓库数据是集成的。l 相对稳定：数据仓库中的数据不应该支持dml操作，...

2019-06-13 10:51:25 1315

转载跟我一起学【数据仓库】之——星型模型 VS 雪花型模型

一、概述在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，如图 1 。星型架构是一种非正规化的结构，多维数据集的每一个维度都直接与事实表相连接，不存在渐变维度，所以数据有一...

2019-06-13 09:55:12 1098

转载跟我一起学【数据仓库】之——Inmon VS Kimball数仓理论

Inmon和Kimball是数据仓库领域伟大的开拓者，他们均多年从事数据仓库的研究，Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点，也有不同点。下面按照我的想法总结一下，理解如有偏颇，还请多多指正。1. 共同点（1）均极力推...

2019-06-13 09:49:22 463

转载 pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html 打开激活窗口选择 Activate new license

pycharm所有版本 http://www.jetbrains.com/pycharm/download/previous.html打开激活窗口选择 Activate new license with: License server （用license server 激活）在 License sever address 处填入 http://xidea.online or http://...

2019-06-05 20:47:11 10309

转载跟我一起学【数据仓库】之——数据仓库建设步骤

1.系统分析，确定主题确定一下几个因素：·操作出现的频率，即业务部门每隔多长时间做一次查询分析。·在系统中需要保存多久的数据，是一年、两年还是五年、十年。·用户查询数据的主要方式，如在时间维度上是按照自然年，还是财政年。·用户所能接受的响应时间是多长、是几秒钟，还是几小时。2.选择满足数据仓库系统要求的软件平台选择合适的软件平台，包括数据库、建模...

2019-06-05 10:07:25 761

转载跟我一起学【数据仓库】之——hive数据仓库设计中的拉链表、增量表、全量表

1)存量、流量、增量（1）存量：系统在某一时点时的所保有的数量；（2）流量：是指在某一段时间内流入/出系统的数量（3）增量：则是指在某一段时间内系统中保有数量的变化（4）增量=流入量--流出量（5）本期期末存量=上期期末存量+本期内增量2)拉链表：注意事项（1）记录一个事物从开始，一直到当前状态的所有变化的信息；（2）拉链表每次上报的都是历史记录的最...

2019-06-04 18:29:07 466

转载数据仓库系列－为什么要维度建模

凡是建设数据仓库，一定会提到维度建模方法。这一方法是Kimball最先提出的，其最简单的描述就是，按照事实表、维度表来构建数据仓库、数据集市。在维度建模方法体系中，维度是描述事实的角度，如日期、商品、地址等，事实是要度量的指标，如用户数、销售额等。按照一般书籍的介绍，维度建模还会分为星型模型、雪花模型等，各有优缺点，但很少直接回答一个问题，也就是数据仓库为什么要采用维度建模？这个问题的基本判断...

2019-06-04 17:14:58 592

转载如何识别个人发展领域？

知道自己想成为什么样的人，建立自己的个人愿景，这是个人发展的第一步。下一步就是了解你现在所在的位置，从这点对标目标，就能识别出哪些领域，每个领域当中其中哪些能力和技能需要提高。具体如下：01 自我认知即了解自己的长处，短处，与实现目标所需要的技能和能力对比，发现差距。差距就是需要发展，需要攻克，需要进行改进和提升的领域。反思、自省和理解他人这三种习惯是自我认知的重要部分。在确定需要...

2019-06-04 10:15:07 585

转载个人发展分析：SWOT

在《如何识别个人发展领域？》解释了个人发展，我们需要有自我认知，需要了解自己的长处和短处，这将影响你选择提高自己的方式。在此，介绍SWOT分析法用于全面了解自己。SWOT是通过分析优势，劣势，机会和威胁来了解你（或你组织）的发展情况。企业界使用它作为战略规划工具。SWOT分析同样也适用于个人层面，做为个人职业发展的评估工具，形式简单，易于使用。SWOT概述它是一种全面了解自己当前发展状...

2019-06-04 10:09:21 8004

原创 CQL开发

需求：对Storm进行CQL二次开发CQL，持续查询语言，用于数据流上的查询语言。相对于标准SQL，CQL加入了窗口的概念，使得数据可以一直保存在内存中，由此可以快速进行大量内存计算特点：使用简单语法与标准SQL类似功能丰富包含标准SQL的各类基本表达式，特别针对流处理场景增加了窗口、窗口前过滤、窗口后过滤、并发度设置等功能，满足多种实时业务处理场景。...

2019-05-24 17:44:59 357

空空如也

空空如也