dovert-CSDN博客

原创最全企业级数仓建设迭代版

一什么是数据仓库1.1 数据仓库概念数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。1.2 数据仓库特点1.2.1面向主题普通的操作型数据库主要面向事务性处理，而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象，是从较高层次上对信息系统中的数据进行归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定

2021-11-14 10:22:58 1560

原创建设指标体系

快手如何搭建一个好的数据指标体系？一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题，快速定位原因，并且找到最合适的解决方案。因此学习搭建一个好的数据指标体系是数据助力业务决策的灵魂。本文会从四个方向来进行相对应的展开和论述：首先我们来看下，为什么需要一个好的数据指标体系，好的数据指标体系和大家日常看见的这些数据指标到底有什么区别？然后看下，到底什么是一个好的数据指标体系，它的基准是什么？在有了目标和基准之后，我们会聊聊如何进行一个好的数据指标体系的建设；最后，会做一个简单的回顾，以

2021-11-06 22:52:54 702

原创实时数据仓库建设

实时数据仓库建设数据处理现状：当前基于Hive的离线数据仓库已经非常成熟，数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于两个相关的热点问题：实时数仓建设和大数据架构的批流一体建设。对于实时处理场景，我们一般又可以分为两类，一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级；另一类诸如大部分实时报表的需求通常没有非常高的时效性要求，一般分钟级别，比如10分钟甚至30分钟以内都可以接受。对于第一类实时数据场

2021-11-06 11:56:07 505

原创关于数据仓库的17个重要概念解读

1、什么是数据仓库？权威定义：数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。1）数据仓库是用于支持决策、面向分析型数据处理；2）对多个异构的数据源有效集成，集成后按照主题进行重组，并包含历史数据，而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性，在存储和处理这些大数据时，我们就必须要知道两个重要的技术。分别是：数据仓库技术、Hadoop。2、数据仓库和数据库的区别？从目标、用途、设计来说。1）数据库是面向事务处理的，数据

2021-11-01 22:36:32 866

原创 tensorflow函数之tf.linalg.LinearOperatorLowerTriangluar()

https://blog.csdn.net/weixin_42135074/article/details/90573689

2021-08-23 22:07:31 220

原创 tf.ones_like()函数用法详解

https://blog.csdn.net/weixin_39550091/article/details/102880344

2021-08-23 22:06:54 472

原创 tensorflow之tf.where()函数

https://blog.csdn.net/qq_43636375/article/details/108960052

2021-08-23 22:05:56 254

原创 tf.nn.softmax参数详解以及作用

tf.nn.softmax参数详解以及作用tf.nn.softmax(logits,axis=None,name=None,dim=None)logits：一个非空的Tensor。必须是下列类型之一：half， float32，float64axis：将在其上执行维度softmax。默认值为-1，表示最后一个维度name：操作的名称(可选)dim：axis的已弃用的别名返回：一个Tensor，与logits具有相同的类型和shape通过Softmax回归，将logistic的预测二分类的概

2021-08-09 11:02:53 5511

原创 python(1):tf.transpose函数

tf.transpose(a, perm = None, name = 'transpose')a是一个张量（Tensor），实际上就是一个数组。perm是a置换的维度name是操作的名称最后返回一个转置的张量图像处理时数据集中存储数据的形式为：[channel,image_height,image_width]，在intel GPU加速的情况下，因为GPU对于图像的处理比较多，希望在访问同一个channel的像素是连续的，一般存储选用NCHW【参考链接：NCHW和NHWC】。而在te

2021-08-01 17:08:36 781

原创 tensorflow 中tf.concat()用法

concat()是将tensor沿着指定维度连接起来。其中tensorflow1.3版中是这样定义的：concat(values,axis,name='concat') 一、对于2维来说，0表示行，1表示列t1 = [[1, 2, 3], [4, 5, 6]]t2 = [[7, 8, 9], [10, 11, 12]]with tf.Session() as sess: print(sess.run(tf.concat([t1, t2], 0) ))结果为：[[1, 2...

2021-08-01 17:02:20 824

原创 TensorFlow tf.split

tf.split( value, num_or_size_splits, axis=0, num=None, name='split' )这个函数是用来切割张量的。输入切割的张量和参数，返回切割的结果。value传入的就是需要切割的张量。这个函数有两种切割的方式：以三个维度的张量为例，比如说一个20 * 30 * 40的张量my_tensor，就如同一个长20厘米宽30厘米高40厘米的蛋糕，每立方厘米都是一个分量。有两种切割方式：1. 如果num_or_size_splits传入的是一...

2021-08-01 16:59:53 428

原创 tf.layers.dense()的用法

dense ：全连接层相当于添加一个层函数如下：tf.layers.dense( inputs, units, activation=None, use_bias=True, kernel_initializer=None, ##卷积核的初始化器 bias_initializer=tf.zeros_initializer(), ##偏置项的初始化器，默认初始化为0 kernel_regularizer=None, ...

2021-08-01 16:43:03 706

原创 Tensorflow——BatchNormalization（tf.nn.moments及tf.nn.batch_normalization）

https://www.jianshu.com/p/8e7f1532a7cf批标准化批标准化（batch normalization，BN）一般用在激活函数之前，使结果各个维度均值为0，方差为1。通过规范化让激活函数分布在线性区间，让每一层的输入有一个稳定的分布会有利于网络的训练。优点：加大探索步长，加快收敛速度。更容易跳出局部极小。破坏原来的数据分布，一定程度上防止过拟合。解决收敛速度慢和梯度爆炸。...

2021-08-01 16:04:02 287

原创彻底搞懂Python切片操作

https://www.cnblogs.com/malinqing/p/11272485.html一个完整的切片表达式包含两个“:”，用于分隔三个参数（start_index、end_index、step），当只有一个“:”时，默认第三个参数step=1。切片操作基本表达式：object[start_index : end_index : step]step：正负数均可，其绝对值大小决定了切取数据时的“步长”，而正负号决定了“切取方向”，正表示“从左往右”取值，负表示“从右往左”取值

2021-07-31 11:39:06 279

原创 numpy--prod和pad运算

https://blog.csdn.net/liyaohhh/article/details/51111115

2021-07-24 11:25:56 171

原创 Python 字符串前面加u,r,b，f的含义

1、字符串前加 u例：u"我是含有中文字符组成的字符串。"作用：后面字符串以 Unicode 格式进行编码，一般用在中文字符串前面，防止因为源码储存格式问题，导致再次使用时出现乱码。2、字符串前加 r例：r"\n\n\n\n”　　# 表示一个普通生字符串 \n\n\n\n，而不表示换行了。作用：去掉反斜杠的转义机制。（特殊字符：即那些，反斜杠加上对应字母，表示对应的特殊含义的，比如最常见的”\n”表示换行，”\t”表示Tab等。）应用：常用于正则表达式，对应着

2021-07-24 11:12:58 224

原创 Python 字典(Dictionary) get()方法

Python 字典(Dictionary) get() 函数返回指定键的值。dict.get(key, default=None)key -- 字典中要查找的键。 default -- 如果指定键的值不存在时，返回该默认值。 #!/usr/bin/python dict={'Name':'Runoob','Age':27} print"Value : %s"% dict.get('Age') print"Value : %s"% dict.get('Sex',...

2021-07-24 11:09:27 336

原创 python的zip()函数

zip()函数用于将可迭代对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的对象。如果各个可迭代对象的元素个数不一致，则返回的对象长度与最短的可迭代对象相同。利用 * 号操作符，与zip相反，进行解压。zip() 函数语法： 1 zip(iterable1,iterable2, ...) 参数说明：iterable -- 一个或多个可迭代对象（字符串、列表、元祖、字典） import pandas as pd...

2021-07-24 11:06:41 618

原创 python3 Counter类（计数器）

Counter（计数器）：用于追踪值的出现次数Counter类创建一个Counter类import collectionsobj = collections.Counter('aabbccc')print(obj)#输出：Counter({'c': 3, 'a': 2, 'b': 2})继承dict类，所以它能使用dict类里面的方法import collectionsobj = collections.Counter('aabbccc')print(sorted(o..

2021-07-21 22:29:02 553

原创 hive中的使用技巧与踩坑

1、LATERAL VIEW explode使用列转行select a.revisionId -- 版本id ,a.status -- 方式 ,b.label ,b.value from ( SELECT * FROM mdw_ods.ods_pred_newcust_peport_byday_data_df WHERE ds='${zdt.addDay...

2021-07-20 15:40:27 149

原创 Python enumerate() 函数

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列，同时列出数据和数据下标，一般用在 for 循环当中。Python 2.3. 以上版本可用，2.6 添加 start 参数。enumerate(sequence, [start=0])sequence -- 一个序列、迭代器或其他支持迭代对象。 start -- 下标起始位置。 >>>seasons = ['Spring', 'Summer', 'Fall', 'Winter'

2021-07-19 22:47:28 124

原创 Python splitlines()方法

Python splitlines() 按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表，如果参数 keepends 为 False，不包含换行符，如果为 True，则保留换行符。Python splitlines() 按照行界符('\r', '\r\n', \n'等)分隔，返回一个包含各行作为元素的列表，默认不包含行界符。str.splitlines([keepends])keepends -- 在输出结果里是否保留换行符('\r', '\r\n', \n')

2021-07-19 22:40:39 248

原创 python文件读read()、readline()、readlines()对比

一、read方法　　特点是：读取整个文件，将文件内容放到一个字符串变量中。　　劣势是：如果文件非常大，尤其是大于内存时，无法使用read()方法。file = open('兼职模特联系方式.txt', 'r') # 创建的这个文件，也是一个可迭代对象try: text = file.read() # 结果为str类型 print(type(text)) print(text)finally: file.close()"""<class 'st

2021-07-19 22:36:34 365

原创 python中open()与codecs.open()的区别

最初的时候，只有open()函数，由于Python2中，编码的冗杂性，所以就有了codecs.open();至于io.open，其实是因为Python 2的open实际上是file模块提供的;而Python 3的open是io模块提供的。然后，Python 2.6引入了这个Python 3的特性，叫做io.open，以便和原来的open相区分。但是，这个Python 2.6的io.open是有问题的，在一些情况下表现很怪异。Python 2.7的io.open就正常了。参考：https://b..

2021-07-19 22:17:24 350

dovert的博客