自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 最全企业级数仓建设迭代版

一 什么是数据仓库1.1 数据仓库概念数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。1.2 数据仓库特点1.2.1面向主题普通的操作型数据库主要面向事务性处理,而数据仓库中的所有数据一般按照主题进行划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行归纳和整理。面向主题的数据可以划分成两部分----根据原系统业务数据的特点进行主题的抽取和确定

2021-11-14 10:22:58 1034

原创 建设指标体系

快手如何搭建一个好的数据指标体系?一个好的数据指标体系可以助力业务快速的解构业务、理解业务、发现业务问题,快速定位原因,并且找到最合适的解决方案。因此学习搭建一个好的数据指标体系是数据助力业务决策的灵魂。本文会从四个方向来进行相对应的展开和论述:首先我们来看下,为什么需要一个好的数据指标体系,好的数据指标体系和大家日常看见的这些数据指标到底有什么区别?然后看下,到底什么是一个好的数据指标体系,它的基准是什么?在有了目标和基准之后,我们会聊聊如何进行一个好的数据指标体系的建设;最后,会做一个简单的回顾,以

2021-11-06 22:52:54 518

原创 实时数据仓库建设

实时数据仓库建设数据处理现状:当前基于Hive的离线数据仓库已经非常成熟,数据中台体系也基本上是围绕离线数仓进行建设。但是随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一类诸如大部分实时报表的需求通常没有非常高的时效性要求,一般分钟级别,比如10分钟甚至30分钟以内都可以接受。对于第一类实时数据场

2021-11-06 11:56:07 391

原创 关于数据仓库的17个重要概念解读

1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。1)数据仓库是用于支持决策、面向分析型数据处理;2)对多个异构的数据源有效集成,集成后按照主题进行重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。面对大数据的多样性,在存储和处理这些大数据时,我们就必须要知道两个重要的技术。分别是:数据仓库技术、Hadoop。2、数据仓库和数据库的区别?从目标、用途、设计来说。1)数据库是面向事务处理的,数据

2021-11-01 22:36:32 612

原创 tensorflow函数之tf.linalg.LinearOperatorLowerTriangluar()

https://blog.csdn.net/weixin_42135074/article/details/90573689

2021-08-23 22:07:31 143

原创 tf.ones_like()函数用法详解

https://blog.csdn.net/weixin_39550091/article/details/102880344

2021-08-23 22:06:54 344

原创 tensorflow之tf.where()函数

https://blog.csdn.net/qq_43636375/article/details/108960052

2021-08-23 22:05:56 155

原创 tf.nn.softmax参数详解以及作用

tf.nn.softmax参数详解以及作用tf.nn.softmax(logits,axis=None,name=None,dim=None)logits:一个非空的Tensor。必须是下列类型之一:half, float32,float64axis:将在其上执行维度softmax。默认值为-1,表示最后一个维度name:操作的名称(可选)dim:axis的已弃用的别名返回:一个Tensor,与logits具有相同的类型和shape通过Softmax回归,将logistic的预测二分类的概

2021-08-09 11:02:53 5347

原创 python(1):tf.transpose函数

tf.transpose(a, perm = None, name = 'transpose')a是一个张量(Tensor),实际上就是一个数组。perm是a置换的维度name是操作的名称最后返回一个转置的张量图像处理时数据集中存储数据的形式为:[channel,image_height,image_width],在intel GPU加速的情况下,因为GPU对于图像的处理比较多,希望在访问同一个channel的像素是连续的,一般存储选用NCHW【参考链接:NCHW和NHWC】。而在te

2021-08-01 17:08:36 679

原创 tensorflow 中tf.concat()用法

concat()是将tensor沿着指定维度连接起来。其中tensorflow1.3版中是这样定义的:concat(values,axis,name='concat') 一、对于2维来说,0表示行,1表示列t1 = [[1, 2, 3], [4, 5, 6]]t2 = [[7, 8, 9], [10, 11, 12]]with tf.Session() as sess: print(sess.run(tf.concat([t1, t2], 0) ))结果为:[[1, 2...

2021-08-01 17:02:20 674

原创 TensorFlow tf.split

tf.split( value, num_or_size_splits, axis=0, num=None, name='split' )这个函数是用来切割张量的。输入切割的张量和参数,返回切割的结果。value传入的就是需要切割的张量。这个函数有两种切割的方式:以三个维度的张量为例,比如说一个20 * 30 * 40的张量my_tensor,就如同一个长20厘米宽30厘米高40厘米的蛋糕,每立方厘米都是一个分量。有两种切割方式:1. 如果num_or_size_splits传入的是一...

2021-08-01 16:59:53 298

原创 tf.layers.dense()的用法

dense :全连接层 相当于添加一个层函数如下:tf.layers.dense( inputs, units, activation=None, use_bias=True, kernel_initializer=None, ##卷积核的初始化器 bias_initializer=tf.zeros_initializer(), ##偏置项的初始化器,默认初始化为0 kernel_regularizer=None, ...

2021-08-01 16:43:03 606

原创 Tensorflow——BatchNormalization(tf.nn.moments及tf.nn.batch_normalization)

https://www.jianshu.com/p/8e7f1532a7cf批标准化批标准化(batch normalization,BN)一般用在激活函数之前,使结果 各个维度均值为0,方差为1。通过规范化让激活函数分布在线性区间,让每一层的输入有一个稳定的分布会有利于网络的训练。 优点: 加大探索步长,加快收敛速度。 更容易跳出局部极小。 破坏原来的数据分布,一定程度上防止过拟合。 解决收敛速度慢和梯度爆炸。...

2021-08-01 16:04:02 228

原创 彻底搞懂Python切片操作

https://www.cnblogs.com/malinqing/p/11272485.html一个完整的切片表达式包含两个“:”,用于分隔三个参数(start_index、end_index、step),当只有一个“:”时,默认第三个参数step=1。切片操作基本表达式:object[start_index : end_index : step]step:正负数均可,其绝对值大小决定了切取数据时的“步长”,而正负号决定了“切取方向”,正表示“从左往右”取值,负表示“从右往左”取值

2021-07-31 11:39:06 182

原创 numpy--prod和pad运算

https://blog.csdn.net/liyaohhh/article/details/51111115

2021-07-24 11:25:56 107

原创 Python 字符串前面加u,r,b,f的含义

1、字符串前加 u例:u"我是含有中文字符组成的字符串。"作用:后面字符串以 Unicode 格式 进行编码,一般用在中文字符串前面,防止因为源码储存格式问题,导致再次使用时出现乱码。2、字符串前加 r例:r"\n\n\n\n”  # 表示一个普通生字符串 \n\n\n\n,而不表示换行了。作用:去掉反斜杠的转义机制。(特殊字符:即那些,反斜杠加上对应字母,表示对应的特殊含义的,比如最常见的”\n”表示换行,”\t”表示Tab等。 )应用:常用于正则表达式,对应着

2021-07-24 11:12:58 146

原创 Python 字典(Dictionary) get()方法

Python 字典(Dictionary) get() 函数返回指定键的值。dict.get(key, default=None)key -- 字典中要查找的键。 default -- 如果指定键的值不存在时,返回该默认值。 #!/usr/bin/python dict={'Name':'Runoob','Age':27} print"Value : %s"% dict.get('Age') print"Value : %s"% dict.get('Sex',...

2021-07-24 11:09:27 203

原创 python的zip()函数

zip()函数用于将可迭代对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象。如果各个可迭代对象的元素个数不一致,则返回的对象长度与最短的可迭代对象相同。利用 * 号操作符,与zip相反,进行解压。zip() 函数语法: 1 zip(iterable1,iterable2, ...) 参数说明:iterable -- 一个或多个可迭代对象(字符串、列表、元祖、字典) import pandas as pd...

2021-07-24 11:06:41 471

原创 python3 Counter类(计数器)

Counter(计数器):用于追踪值的出现次数Counter类创建一个Counter类import collectionsobj = collections.Counter('aabbccc')print(obj)#输出:Counter({'c': 3, 'a': 2, 'b': 2})继承dict类,所以它能使用dict类里面的方法import collectionsobj = collections.Counter('aabbccc')print(sorted(o..

2021-07-21 22:29:02 350

原创 hive中的使用技巧与踩坑

1、LATERAL VIEW explode使用列转行select a.revisionId -- 版本id ,a.status -- 方式 ,b.label ,b.value from ( SELECT * FROM mdw_ods.ods_pred_newcust_peport_byday_data_df WHERE ds='${zdt.addDay...

2021-07-20 15:40:27 84

原创 Python enumerate() 函数

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。Python 2.3. 以上版本可用,2.6 添加 start 参数。enumerate(sequence, [start=0])sequence -- 一个序列、迭代器或其他支持迭代对象。 start -- 下标起始位置。 >>>seasons = ['Spring', 'Summer', 'Fall', 'Winter'

2021-07-19 22:47:28 74

原创 Python splitlines()方法

Python splitlines() 按照行('\r', '\r\n', \n')分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。Python splitlines() 按照行界符('\r', '\r\n', \n'等)分隔,返回一个包含各行作为元素的列表,默认不包含行界符。str.splitlines([keepends])keepends -- 在输出结果里是否保留换行符('\r', '\r\n', \n')

2021-07-19 22:40:39 172

原创 python文件读read()、readline()、readlines()对比

一、read方法  特点是:读取整个文件,将文件内容放到一个字符串变量中。  劣势是:如果文件非常大,尤其是大于内存时,无法使用read()方法。file = open('兼职模特联系方式.txt', 'r') # 创建的这个文件,也是一个可迭代对象try: text = file.read() # 结果为str类型 print(type(text)) print(text)finally: file.close()"""<class 'st

2021-07-19 22:36:34 280

原创 python中open()与codecs.open()的区别

最初的时候,只有open()函数,由于Python2中,编码的冗杂性,所以就有了codecs.open();至于io.open,其实是因为Python 2的open实际上是file模块提供的;而Python 3的open是io模块提供的。然后,Python 2.6引入了这个Python 3的特性,叫做io.open,以便和原来的open相区分。但是,这个Python 2.6的io.open是有问题的,在一些情况下表现很怪异。Python 2.7的io.open就正常了。参考:https://b..

2021-07-19 22:17:24 209

原创 推荐系统中的i2i,u2u2i,u2i2i和u2tag2i 是什么意思?

这个问题确实放在图中就很容易理解,仔细观察这几个词语,其实就是一个图的指向,其中"u"、"i"、"tag"是图的顶点,"2"指的是图中的边i2i:计算item-item相似度,用于相似推荐、相关推荐、关联推荐; u2i:基于矩阵分解、协同过滤的结果,直接给u推荐i; u2u2i:基于用户的协同过滤,先找相似用户,再推荐相似用户喜欢的item; u2i2i:基于物品的协同过滤,先统计用户喜爱的物品,再推荐他喜欢的物品; u2tag2i:基于标签的泛化推荐,先统计用户偏好的tag向量,然后匹配所

2020-12-26 17:06:34 6646 1

原创 matlab中处理图像如何加快处理速度?

matlab经常被用来处理图像,图像稍微大一点,经常会出现半天出不了结果的情况,对于一些新手来说,喜欢使用for循环对图像中每个像素进行处理,这是造成运行速度慢的主要原因之一,因此,总结几个可以避免使用for循环的函数:(1)find函数,find函数返回矩阵元素所在的位置,位置是从第一列开始,从上到下,1,2,3,...,,然后是第二列,第三列经常在图像中使用 如下: fseg(find

2017-05-24 16:38:37 6508

原创 MATLAB如何判断是否为多波段影像?

方法一: isrgb();只能判断是否为RGB影像 isgray();判断是否为灰度影像;方法二:[m,n,bands]=size(image);然后通过判断bands是否为多波段,如果是多波段,通过rgb2gray函数转化为灰度影像。

2017-05-24 16:36:04 1322

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除