2020年05月_Andy_shenzl

12月 10月 09月 08月 07月 06月 05月 04月 03月

原创 Hive SQL的几个时间函数

datediff计算时间差命令格式：datediff(datetime1, datetime2, datepart)用途：计算两个时间的差值，并转换成指定的单位，如：秒。参数说明：● datetime1 , datetime2: datetime类型，被减数和减数，若输入为string类型会隐式转换为datetime类型后参与运算，其它类型抛异常。● datepart: string类型常量，修改单位，yyyy、mm、dd、hh、mi、ss中的一个，指定时间差值的单位，也支持扩展的日期格式

2020-05-27 17:50:56 3014

原创协同过滤算法-简单的python实现demo

概述协同过滤（collaborative filtering）是推荐算法里面最经典也是最常用的。该算法通过分析用户的兴趣，在用户群中找到指定用户的相似用户，综合这些相似用户对某一信息的评价，形成系统对该指定用户的喜好程度预测。比如，你现在想看一部电影，但是不知道具体看哪一部，你会怎么做？大部分人会问问周围的朋友，看看他们最近有什么好看的电影可以推荐给自己，而我们一般会倾向于从口味比较类似的朋友那里得到推荐信息。这就是协同过滤的核心思想。要实现协同过滤，需要一下几个步骤：收集用户便好找到相似的用

2020-05-26 11:52:31 1992

原创 ODPS—UDF简单使用

UDF全称为User Defined Function，即用户自定义函数。编写一个简单函数首先登录DataWorks控制台，在左侧导航栏，单击工作空间列表，单击相应工作空间后的进入数据开发。新建Python资源。右键单击业务流程，选择新建 > MaxCompute > 资源 > Python。在新建资源对话框中，填写资源名称，并勾选上传为ODPS资源，单击确定。在Pyodps资源中输入如下代码。如下图定义一个new-style class，并实现evaluate方法，

2020-05-25 11:16:58 2951

原创 HIVE实现pivot函数

pivot是一个非常实用的函数PIVOT的格式：SELECT [原表字段1，2，3…] FROM [表名]AS [原表别名]PIVOT( [聚合函数] ( [原表字段1] ) FOR [原表字段2] IN ( [原表2值1]，[原表字段2值2]… ) ) AS [新表别名]但是hive里面没有自带pivot函数，所以我们需要自己实现首先创建一组数据CREATE TABLE IF NOT EXISTS pivot_test( id INT ,province STRING

2020-05-22 15:04:38 7354 1

原创深入理解DAU

如果我们在回答一个问题：公司最重要的指标是什么你日常关注最多的三个指标是什么……类似这样的问题，我相信DAU肯定会出现在你的答案里面。那么什么是DAU呢？DAU：【Daily Active User-日活跃用户数量】也就是我们日常说的日活定义我们说DAU是日活，只是笼统的概念，那么每个公司或者业务线都会有自身更加明确的定义。比如，每日登陆的用户数，每日浏览页面的用户数，等等当然也有更加严谨的定义，为了去除非正常数据，可以定义，浏览两个页面以上的用户、浏览时间超过3分钟的用户，等等正确定

2020-05-22 11:06:35 1089

原创 LAG()和LEAD() 分析函数

Lag和Lead分析函数可以在同一次查询中取出同一字段的前N行的数据(Lag)和后N行的数据(Lead)作为独立的列。在实际应用当中，若要用到取今天和昨天的某字段差值时，Lag和Lead函数的应用就显得尤为重要。当然，这种操作可以用表的自连接实现，但是LAG和LEAD与left join、rightjoin等自连接相比，效率更高，SQL更简洁。下面我就对这两个函数做一个简单的介绍。函数语法如下：lag(exp_str,offset,defval) over(partion by ..order by

2020-05-21 14:06:24 535

原创关联规则python实现-mlxtend

之前介绍了关联规则的原理：传送门发现一个专门进行关联规则分析的python库：mlxtend下面进行简单的演示简单数据实现我们自己简单构造几个数据熟悉下retail_shopping_basket = {'ID':[1,2,3,4,5,6],'Basket':[['Beer', 'Diaper', 'Pretzels', 'Chips', 'Aspirin'],['Diaper', 'Beer', 'Chips', 'Lotion', 'Juice', 'BabyFood', 'Milk'],

2020-05-21 11:01:26 2146

原创拉链表的原理及简单实现

拉链表是针对数据仓库设计中表存储数据的方式而定义的，顾名思义，所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。比如下面的表：user_idnamelevelstart_timeend_time1甲A2020-05-019999-12-312乙B2020-05-012020-05-022乙A2020-05-029999-12-313丙B2020-05-029999-12-31上面就是一个简单的拉链

2020-05-20 13:58:32 5054 1

原创 ROW_NUMBER函数的用法

row_number() over()分组排序功能：在使用 row_number() over()函数时候，over()里头的分组以及排序的执行晚于 where 、group by、 order by 的执行。语法格式：row_number() over(partition by 分组列 order by 排序列 desc)默认是生序，降序需要指定desc建立数据首先我们先创建一组数据CREATE TABLE IF NOT EXISTS test_row_number( id BI

2020-05-19 17:35:08 11553 5

原创 RNN学习笔记3-时间序列预测

用LSTM预测时间序列，需要对原始序列做一些简单的处理首先做一个窗口，这个窗口来确定每次需要多少数据进行训练，即xtx_txt的长度，标签的长度也需要确定，本例中我们取的窗口都是一样的，如下：def model_data(seq_size,train_data,test_data): train_x, train_y = [], [] for i in range(len(train_data) - seq_size - 1): train_x.append(np.ex

2020-05-19 15:22:10 849

原创 RNN学习笔记3-mnist数据集

在进行代码演练之前，需要先了解下数据集情况我们知道，Mnist数据集是28*28 的图片，所以我们在进行训练的时候，需要进行思维的转换，就是把图片怎么用序列进行训练。对于一张图片，我们把它分成28份，即28个序列，每一行28个像素点为一个序列，即x0x_0x0为图片的第一行，也就是第一个序列，如果我们假定隐藏层为128，那么输出为128*1的向量。根据上一节的LSTM公式 \qquad\;\;输入门：it=σ(Wi⋅[ht−1,xt]+bi)i_t=\sigma(W_i\cdot[h_{t

2020-05-14 15:55:14 469

原创 RNN学习笔记3-LSTM

引入LSTM尽管RNN被设计成可以利用历史的信息来辅助当前的决策，但是由于在上节提到的梯度消失或者梯度爆炸问题，RNN主要还是学习短期的依赖关系。所以RNN新的技术挑战就是-长期依赖。长短时记忆网络(Long Short Term Memory Network, LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题.LSTM在一个整体的循环网络结构中除了外部的RNN大循环，还要考虑自身单元“细胞”的自循环。传统RNN每个模块内只是一个简单的tanh层,LSTM每个循

2020-05-14 11:15:43 589

原创 RNNx学习笔记2-反向传播BPTT

回顾上节的前向传播

2020-05-13 10:13:18 312

原创 markdown-数学表达式

用markdown书写数学表达式时，需要用到$来进行显示如果是写在正文里面，前后需要一个$，如果要一行单独展示，前后用两个$基本符号输入希腊字母字母名称大写markdown原文小写markdown原文alphaAAα\alphabetaBBβ\betagammaΓ\Gammaγ\gammadeltaΔ\Deltaδ\deltaepsilonEEϵ\epsilonε\varepsilonze

2020-05-11 17:44:52 1289

原创 RNN学习笔记1-前向传播

RNNx^t长方形o^t

2020-05-09 18:23:50 629

原创 CNN基础及LeNet5介绍+TF实战

CNN卷积卷积运算特性S(i,j)=(K∗I)(i,j)=∑m∑nI(i+m,j+n)K(m,n)S(i,j)=(K*I)(i,j)=\sum_{m}\sum_{n}I(i+m,j+n)K(m,n)S(i,j)=(K∗I)(i,j)=m∑n∑I(i+m,j+n)K(m,n)稀疏链接–减少权重参数数量– 降低计算复杂度– 过多的链接会导致严重的过拟合，减少链接数可以提升模型...

2020-05-08 15:51:55 223

原创数据探索分析-EDA

目录一、什么是EDA定义plan二、案例实战1、整体步骤2、实例-python演示1>数据背景2>导入相关的包3>导入数据及数据概览4>变量初探索5>数据切分6>数据质量评估7>变量分析8>数据峰度和偏度8>数据增长变化可视化9>每个变量与目标变量之间的相关性10&...

2020-05-07 10:29:49 2193

Attention Is All You Need论文

"Attention Is All You Need" 论文的详细解读如下： 1. 摘要（Abstract）：论文摘要简要介绍了Transformer模型，一种基于注意力机制的序列到序列学习模型。摘要提到，Transformer摒弃了传统的循环和卷积层，完全依赖于注意力机制来实现输入和输出序列之间的关联。实验结果表明，在翻译质量、并行能力和所需训练时间方面，Transformer优于此前的方法。 2. 引言（Introduction）：引言部分首先回顾了传统的序列到序列模型，特别是基于RNN和CNN的模型，并指出了它们在处理长距离依赖和并行计算方面的局限性。随后，作者介绍了注意力机制，并强调了其在机器翻译等任务中的重要性。最后，作者总结了Transformer模型的主要特点和实验结果，指出其在翻译质量和模型效率方面的优势。 3. 相关工作（Background）：在这一部分，作者简要回顾了与Transformer模型相关的先前工作，包括传统的序列到序列模型、基于注意力机制的模型以及一些优化技术。这些工作为Transformer模型的设计提供了理论基础和实践经验。

2024-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Andy_shenzl的博客