sujins5288-CSDN博客

原创事实表分类

目录1.事务性事实表2.周期性快照事实表3.累积快照事实表4.无事实的事实表5.补充前三种事实表，已经有很多人做了阐述，大家参考下：事实表的分类：事务事实表，周期快照事实表，累计快照事实表 - 百度文库无事实的事实表无事实的事实表记录的是某一刻发生的某些事件；它可能是没有可记录的数字化事实。如：埋点上报日志表就是比较好的一个例子补充信息：按事实表中数字度量的划分，可分为：可加、半可加、不可加；这里着重说下不可加的处理方式；在数仓建设中比率型指标非常常见，这种指标是不可

2022-05-20 17:40:31 800

原创数仓之缓慢变化维总结

数据仓库工具箱罗列了7种缓慢变化维的处理方式，本文做下总结记录：处理方式一：原样保留此种方式对表结构是没有任何修改，只是维度属性中新增了一个映射关系；比如：餐馆菜单以前只有三种菜，目前研发出一个新菜，菜单上变成了四种菜；适合此种方式。处理方式二：重写此种方式是将维度表中原有属性值直接覆盖，比如个人信息表中以前身份证号码是错误的，现在有了正确的号码需要将其更正；适合用此种方式处理。处理方式三：增加新行此种方式就是就是拉链表的处理方式；处理方式四：增加新属性此种方式是增加一列存

2022-05-19 20:17:25 473

原创时隔一年半开始准备更新博客

更新原因：从某厂出来后，总体来说时间有些宽松了，不用再一直围着业务转了，仔细回想这一年，无论从技术上还是个人成长上都几乎没啥进步。那么这一年增长了什么？我问自己好久了，没得出一个答案，，，为啥今天开始更新？一.为了记录自己的成长，不输出的学习，效率是很低的。二.被多位面试官问到你有博客嘛，都羞愧的不敢给人家。当前就说这么多原因吧...

2022-05-19 14:41:14 118

原创记一次cdh分发parcel添加新机器问题

因为业务增长，集群资源出现了不足，在经过多方优化后，集群资源依然还是不足，于是打算新加几台机器。一个组同学在加机器过程中，告我分发parcel一直卡着不动，于是我看了cm server的日志只显示一个warn警告，于是去新添加的节点下查看agent日志，发现是因为没有配置host通信导致的，配置host通信后，问题解决...

2020-10-14 18:44:41 504

原创 python批量从sqlserver导表到hive

最近团队要从公司某个部门拉取业务数据，由于某部门的数据竟然放的是sqlserver，没有生成hive表的脚本，本打算让人手工同步一下，大体看了眼30多个表，让部门写个脚本，说没写过，没办法，自己来写个粗糙版,让其他人去优化吧，里边有自动生成跑任务脚本的部分，就懒得贴了，自己定义个启动脚本模板定义就去行了#!/usr/bin/env python# -*- coding: utf-8 -*-import pymssqlimport sysimport osimport shutilreloa

2020-06-10 17:36:09 361

原创 cdh hbase启动master报: failed on connection exception: org.apache.hbase.thirdparty.io.netty.channel

今天在cdh装hbase时，本来以为几分钟就完事了，结果，，，装完后，hmaster启动不起来，看日志报如下错误：ERROR org.apache.hadoop.hbase.master.HMaster: Failed to become active masterorg.apache.hadoop.hbase.client.RetriesExhaustedException: Failed after attempts=31, exceptions:Wed May 13 15:20:20 CST.

2020-05-13 20:08:51 5114

原创 chd6.2 NFS Gateway fails to start

今天让运维给集群升级了点内存，升级完成，重启集群过程中遇到一台机器的hdfs的NFS Gateway fails to start，查看日志显示： ERROR org.apache.hadoop.oncrpc.RpcProgram: Unregistration failure with localhost:2049,搜索：此端口没有应用，重启看到页面日报rpcbind没有启动于是在此机器的命令行执行：systemctl start rpcbind 启动rpcbind，再次重启nfs服务，没有.

2020-05-12 17:22:06 240

原创 MAC IDEA完美添加anaconda

最近要在idea里进行一些python开发，创建好项目后发现是自带的python3包，不是我环境里配置的anaconda，这导致我引入pandas包时报错，于是就只能自己手动添加anaconda了，话不多说操作如下图：点此选项后，选中sdk，点击+：选择python sdk后，选择Conda Environment：直接点击ok就可以了。然后我遇到以下错误：CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https:/

2020-05-09 16:36:15 1503

原创 spark连接JDBC 报 Task not serializable问题

有个简单需求用spark解析一个配置文件存入数据库，在操作中，为了高效使用了spark的foreachPartition算子，结果呢，一直告诉我：看最下边日志原因告诉我是jdbc无法序列化导致的，于是打算重写jdbc类实现序列话，结果，，，无法实现序列号接口，百般无奈下，看到下边日志提示，明显是util.hashMap无法序列化导致的，那么也就是说因为连接jdbc时传入的propertis无法...

2020-04-24 23:54:16 413

原创 BI metabase使用sparksql

参考网址https://immm.in/archives/24.html其中metabase启动为中文版的方式为：nohup java-Duser.country=CN -Duser.language=zh-jar /opt/server/metabase.jar >> /var/log/metabase/metabase.log 2>&1 &...

2020-02-27 15:44:51 841

原创 azkaban-3.81.1错误记录

错误问题如下：1.Azkaban报错-azkaban.executor.ExecutorManagerException: No active executors found解决办法：问题得到解决。2.打开azkaban，填入账号密码，登录没反应，且azkaban页面显示很丑解决方法：在azkaban-web-server的conf中修改azkaban...

2019-12-10 20:35:43 295

原创 chd6.0.1 kerberos安装碰到问题：

1.rsync -av /etc/krb5.conf bigdata-beta3:/etc/krb5.confbash: rsync: command not foundrsync: connection unexpectedly closed (0 bytes received so far) [sender]rsync error: remote command not found...

2019-12-02 16:00:31 232

原创 hive常见语句

1.hive -e1.在hive中我们有时期望执行一个或者多个查询（使用分号分隔），执行结束后hive cli立即退出。hive提供了这样的功能，我们可以通过hive -e实现：临时应急时可以使用这个功能将查询结果保存到一个文件中。增加-S选项可以开启静默模式，这样可以在输出结果去掉 "ok"和“Time taken” 等行，以及其他一些无关紧要的输出信息，例子如下：上面例子的shel...

2019-11-29 12:10:27 599

原创 ERROR: [1] bootstrap checks failed [1]: max virtual memory areas vm.max_map_count [65530] is too low

很尴尬昨天刚解决这个问题，今天发现es有一台挂了，于是再次启动发现报：ERROR: [1] bootstrap checks failed[1]: max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144]，于是开始按上个博客进行操作：结果告诉我文件不存在...

2019-11-28 20:13:33 4936 2

原创 Hive查看相关分区语句

show partitions log_messages;describe extended log_messages:该语句会将分区键作为表的模式的一部分，和partitionKeys列表内容同时进行显示：如果我们想查看分区数据实际存在路径，可以使用如下语句：describe extended log_messages partition (year=2012,month=2,...

2019-11-28 10:31:12 1449

原创 ES7.4安装遇到坑

在安装过程中只配置了cluster.initial_master_nodes属性，没有配置discovery.seed_hosts启动的时候遇到如下俩个错误：[1]: memory locking requested for elasticsearch process but memory is not locked[2]: max virtual memory areas vm.m...

2019-11-27 09:01:55 699

原创 CDH新集群没有hive创建表权限记录

1.集群装好后在hive创建表时遇到FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache.hadoop.security.AccessControlException Permission ...

2019-11-26 14:54:30 544

原创 HUE操作Sentry

使用HUE使用sentry管理员登录hue，如hive用户选择server1，点选click here to add some输入角色名字admin，要赋予的组名prod_cdh_admins，选择ALL表示授予server1的全部权限，选择with grant表示该角色可以给其他角色授权。在hue中没有hive组，因此无法将权限授予hive组，如只想授权给hive组，需要在h...

2019-09-09 13:00:00 367

原创 spark内存管理说明

spark内存有几种不同的用途，理解并调优spark的内存使用方法有利于帮助优化spark的应用。在各个执行器中，内存有如下几种用途。1.RDD存储当调用persist或cache方法时，这个RDD的分区会被存储到缓存区中。spark会根据spark.storage.memoryFraction限制用来缓存的内存占整个jvm堆空间的大小。如果超出限制，旧的分区数据会被移出内存。...

2019-06-21 14:56:08 134

原创 Spark运行架构总结说明

在分布式环境下，spark采用的是主从架构。在一个spark集群中，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（Driver）节点，与之对应的工作节点被称为执行器（executor）节点。驱动器节点可以和大量的执行器节点通信，它们也都作为独立的java进程运行。驱动器节点和所以的执行器节点一起被称为一个Spark运用。驱动器节点：spark驱动器...

2019-06-21 14:06:02 290

原创 spark应用程序依赖冲突解决方式

当用户应用与Spark本身依赖同一个库时可能会发生依赖冲突，导致程序崩溃。这种情况不是很常见，但是出现的时候也让人很头疼。通常，依赖冲突表现为Spark作业执行过程中抛出NoSuchMethodError、ClassNotFoundException，或其他与类加载相关的JVM异常。对于这种问题，主要有两种解决方式:一是修改你的应用，使其使用的依赖库的版本与Spark所使...

2019-06-21 14:05:01 866

转载数据预处理方法

预处理数1. 标准化：去均值，方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1.标准化的原因在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。在sklearn.preprocessi...

2019-06-06 13:38:40 271

转载 OneHotEncoder独热编码和 LabelEncoder标签编码

OneHotEncoder独热编码和 LabelEncoder标签编码学习sklearn和kagggle时遇到的问题，什么是独热编码？为什么要用独热编码？什么情况下可以用独热编码？以及和其他几种编码方式的区别。首先了解机器学习中的特征类别：连续型特征和离散型特征拿到获取的原始特征，必须对每一特征分别进行归一化，比如，特征A的取值范围是[-1000,1000]，特...

2019-06-06 10:59:19 177

原创 HBase 表名及设计规则

1.表名设计表名设计规则一般为：汇总层标识+数据域+主维度+时间维度例如：dws_trd_slr_dtr,表示汇总层交易数据，根据卖家（slr）主维度+0点截止当日（dtr）进行统计汇总。这样做的好处是，所有主维度相同的数据都放在一张物理表中，避免表数量过多，难以维护。另外，可以从表名上直观地看到存储的是什么数据内容，方便排查问题。2.rowkey设计设计规则...

2019-05-08 10:12:10 2501

原创 Sqoop数据导入记录

sqoop导入数据原理 sqoop从关系型数据库导入数据前，首先进行的操作是，通过java提供的jdbc api访问存储在RDBMS中的数据表。它检索出表中所有的列以及列的SQL数据类型。这些SQL类型如：VARCHAR、INTEGER等将被映射成为java数据类型：String、Integer等。在MapReduce应用程序中将使用这些对应的java类型来保存字段的值。Sqoop的代码生成...

2019-03-01 17:15:12 446

原创 HDFS日志审计及相关HDFS工具介绍及hadoop

HDFS日志审计： HDFS的日志能够记录所以文件系统的访问请求，一般我们用此特性来进行审计。对日志的审计是log4j在info级别实现的。在默认情况是未开启的。我们可通过在hadoop-env.sh中通过：export HDFS_AUDIT_LOGGER="INFO,RFAAUDIT"来开启。每个HDFS事件均在审计日志（hdfs-audit.log）中生成一行日志记录。HDF...

2019-02-28 11:25:39 1344

原创 Haoop一些调优属性说明

1.缓冲区大小 hadoop使用了一个4KB（4096字节）的缓冲区辅助I/O操作。对于目前硬件来说，这个容量有点偏小，我们可以通过改变core-site.xml文件中io.file.buffer.size属性来设置缓冲区的大小，比如：128KB等。通过增大缓冲区容量能够显著提高性能。2.HDFS块大小在默认情况下，HDFS块大小是128MB,但我们可以通过把块设的更大...

2019-02-27 21:00:35 198

原创关于MapReduce任务发生错误的解决方式

在工作中当一个任务失败并且没有足够的记录信息来诊断错误时，可以选择用调试器运行任务。当在集群上运行作业时，不知道哪个节点处理哪部分内容，故不能在错误发生前按照调试器。故第一种方式是：在本地重新产生错误，对于特定的输入，失败是会一直发生的。可以通过下载致使任务失败的文件到本地运行重现问题，并借用VisualVM调试器进行分析解决。第二种方式是：使用jvm调试选...

2019-02-27 17:40:22 957

原创 yarn fair调度器配置及说明

1.fair与Capacity区别我们熟知yarn的调度器目前有Capacity Scheduler跟Fair Scheduler调度器。fair Scheduler跟Capacity Scheduler在以队列为单位划分资源，每个队列可设定一定比例的资源最大最小值及用户资源限定方面是相同的，fair主要在以下方面比Capacity 具有优势： 1.资源公平共享。在每个队列中，fa...

2019-02-20 18:01:32 1059

原创 Zookeeper一致性及leader选举

zookeeper之所以能够：1.读写速度非常快，并且读的速度要比写的更快。2.在进行操作的时候，依然能够为旧的数据提供服务。这些完全都是由zk所提供的一致性所保证的。zk的一致性具有如下特点：（1）顺序一致性客户端的更新顺序与他们被发送的顺序一致。（2）原子性更新操作要么成功要么失败，没有第三种结果（3）单系统镜像无论客户端连接到哪一个服务器，他将看...

2019-02-15 17:30:09 91

原创 yarn日志管理

在yarn上运行的程序，日志管理是由NodeManager进行管理的。其目录结构如下：NodeManager会在所有目录上为同一个应用程序建立相同的目录结构，并会采用轮询的调度方式将这些目录分配给不同的Container使用。每个Container会输出三类日志： stdout:使用标准输出函数打印的日志，如scala的print()输出内容。 ...

2019-01-28 11:52:14 3530 1

翻译 hive优化总结

在hive体系结构文章中我们说过hive的执行依赖于底层的MapReduce作业，因此对hadoop作业的优化或者对MapReduce作业的调整是提高hive性能的基础。如果没有适当的调整，即使查询hive中的一个小表，有时也会耗时数分钟才会得到结果。在此我们通过下面几种方式的调整，可以大大提高hive的性能。1.启用压缩压缩可以使磁盘上存储的数据量变小，对于文本文件格式能够压缩45%甚...

2019-01-15 16:38:30 342

转载 hadoop压缩方法说明及配置

本文转自：https://blog.csdn.net/qq_35641192/article/details/80490557概述：缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。在 Hadoop 下，尤其是数据规模很大和工作负载密集的情况下，使用数据压缩显得非常重要。在这种情况下， I/O 操作和网络数据传输要花大量的时间。还有， Shuffl...

2019-01-14 17:08:47 530

原创 hive文件格式及结构体系整理

hive文件格式选择： hive是hadoop上的数据仓库组件，便于查询和管理分布式存储上的数据。hive提供了一种称为HiveQL的语言，允许用户进行类似于sql的查询。hive里的数据集最终存储在HDFS的文件中，常用的数据格式有以下4种： TEXTFILE S...

2019-01-14 16:35:42 652

原创 hdoop机架感知策略

在大型的hadoop集群中数据中心会分布在多个机架上，同样小的集群一般也会占据俩到三个机架。这样对于集群来说，在单个机架发生故障时，能够提供额外的冗余性。hadoop本身实现了机架感知在（rack-aware）,同时能够根据服务器所属的机架进行一定的优化。其中一个示例是hadoop使用的分块副本分布策略。它会尝试在不同的机架上存储至少一个副本，以此来增加数据弹性。在请求分布块时（例如在...

2019-01-14 14:45:22 1034

转载 mahout总体概览

一、mahout推荐系统概况 mahout的包包中的每一个类说明 common:公共类包，包括：异常、数据刷新接口、权重常量 model: 定义数据模型接口 neighborhood: 定义近邻算法的接口 recommender: 定义推荐算法的接口 similarity: 定义相似度算法的接口 transforms: 定义数据转换的接口 hadoop: 基于hadoop的分...

2019-01-10 10:28:56 265

原创 Flume整理

flume核心模块介绍：源头（source）:负责接收数据的模块，它定义了数据的源头，从源头收集数据，传递给通道。源头还可用于接收其他flume代理的沉淀器传输过来的数据。沉淀器（sink）:批量地从通道读取并移除数据，并将所读取的内容存储到指定的位置。通道（channel）:作为一个管道或队列，连接源头喝沉淀器。通过以上核心模块，我们引出以下重要概念代理（agent）：flu...

2019-01-09 10:12:32 98

转载机器学习相关——协同过滤

本文转自：http://www.cnblogs.com/luchen927/archive/2012/02/01/2325360.html在现今的推荐技术和算法中，最被大家广泛认可和采用的就是基于协同过滤的推荐方法。本文将带你深入了解协同过滤的秘密。下面直接进入正题1 什么是协同过滤协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filteri...

2019-01-07 15:54:09 207

原创二叉树

首先我们先介绍一下与树相关的三个概念：高度，深度，层级。他们的定义是这样的：节点的高度=节点到叶子节点的最长路径（即最大边数）节点的深度=根节点到该节点所经过的最大边数节点的层级=节点的深度+1树的高度=根节点的高度在理解记忆方面，我们高度可以比作为楼房的高度，只是从0开始的，深度可以理解为水的深度，以水平面为参照物，层级跟深度有一样的类比，只是他们的开始值不一...

2019-01-07 11:21:54 97

原创 hadoop性能调优

转自：https://blog.csdn.net/luofazha2012/article/details/80287031一、 Hadoop概述随着企业要处理的数据量越来越大，MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现，由于其良好的扩展性和容错性，已得到越来越广泛的应用。 Hadoop实现了一个分布式文件系统（Hadoop Distri...

2019-01-04 15:58:40 247

SAS9.4 64位

SAS软件完整版，附带常见问题及解决方法,亲测可以使用，绝不存在欺骗，文件较大放在百度网盘了，该资源存放的是网盘下载路径，如不能下载请给我留言

2020-06-28

memcached学习资料

做集群缓存开发的，大家可以看看

2016-06-20

hadoop面试题

收集的一些hadoop面试试题，希望对大家有帮助

2016-06-20

java，软件工程毕设英文文献中英文翻译

用java写的毕设论文，都可以直接拿来用的外国文献翻译

2016-05-24

java毕业设计周记

2016-05-24

SQLyog中文破解版

QLyog MySQL GUI桌面工具，功能强大，是一个易于使用的、快速而简洁的图形化管理MYSQL数据库的工具，它能够在任何地点有效地管理你的数据库！一直都在用这个。压缩包里含有32位的SQLyog和64位的SQLyog，请根据自己的系统位数进行安装

2016-04-01

jdk-1.6.45

Java 开发环境jdk,从官网下的jdk1.6的版本，考虑到官网很难找，就分享一下吧

2015-05-31

EditPlus 3破解版

本人正在使用这个版本，内含破解教程，可以长期使用

2015-05-31

Mahout in action

Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

2015-04-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人