我叫龙翔天翼-CSDN博客

原创 spark tensorflow tfrecords

依赖<dependency> <groupId>org.tensorflow</groupId> <artifactId>spark-tensorflow-connector_2.11</artifactId> <version>1.13.1</v...

2020-04-17 16:57:15 587

原创 ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation 详解

ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation 详解一、简介这是阿里巴巴和北大联合发表的一篇论文，在电商环境中，用户会存在多种行为：浏览、购买、收藏商品，领取、使用优惠券，搜索关键词等等。由于attention具有抓取序列间的内在关系的能力，因此利用attention来对用户不同的...

2020-01-22 10:12:32 644

原创 Spark中的UDAF简介及其Stage task

Spark中的UDAF简介及其Stageudaf操作会分为两个stage：partial_merge: 本地进行merge，是一种窄依赖。tasks数量取决于上一步的partitions。merge：不同partition的数据进行merge，是一种宽依赖，需要shuffle，因此tasks数量取决于设置的值spark.default.parallelismclass ...

2019-08-09 20:14:59 296

原创 Attention中的Mask: query mask, key mask, future mask

Attention简介Attention是2015年被提出来的，在NLP领域大放光彩。Attention具有在繁多信息中自动focus到重点的能力，而且Attention可以实现并行，一定程度上可以替代LSTM等循环神经网络，提高模型效率。Attention的具体介绍可以参考Attention总结。根据上面的Attention总结，Attention可以看作是 QKV 模型，假设输入为 q，（...

2019-07-27 14:45:43 8966 1

翻译 Andrew Ng Stanford机器学习公开课总结（12）:k-means, 混合高斯分布, EM算法

Lecture 12 k-means, 混合高斯分布, EM算法本节主要讨论非监督学习的集中算法1. k-means clustering algorithmk-means算法是一种无监督的聚类算法，给定一个训练结合{x(1), . . . , x(m)}，并没有标签y的信息，k-means的目的是将数据分为若干簇(cluster)。k-means算法比较简单且容易理解，具体算法流程如下：...

2019-07-26 11:56:43 356

原创 LSH以及Look-alike 技术总结: Similarity-based,Regression-based,Attention-based

Look-alike简介Look-alike是在线营销活动中常用的一种技术，目的是根据广告主提供的用户，帮助其进行人群圈选。Look-alike的输入是一个user列表(可以是user id 或者电话号码等id标识)，这个user列表可以是广告主上一次活动的人群，可以是广告主的已有用户中高净值人群等等。这个输入人群列表有个专有名次叫做“种子用户(seeds)”。而Look-alike的输出还是一...

2019-07-26 11:45:14 2250 3

翻译 Andrew Ng Stanford机器学习公开课总结(5) Lecture 5 高斯判别分析和朴素贝叶斯

layout: posttitle: Andrew Ng Stanford机器学习公开课总结（5）subtitle: Lecture 5 高斯判别分析和朴素贝叶斯date: 2019-07-19author: ZhangWenXiangheader-img: img/post-bg-cook.jpgcatalog: truetags:-...

2019-07-21 12:35:15 314

转载自然语言处理资料整理

斯坦福课程 http://web.stanford.edu/class/cs224n/百度云视频知乎作者笔记：https://www.zhihu.com/people/siliconvalleysddx/posts

2019-07-15 15:09:39 123

转载计算广告权威资料总结

1.阿里自主创新的下一代匹配&推荐技术：任意深度学习+树状全库检索 https://zhuanlan.zhihu.com/p/35030348

2019-07-13 10:23:47 132

转载 FM及其变种（转载）

一、区别特征交互作用这部分模型的演进思路就是根据假设来增加参数量 ( 即模型复杂度 ) 来提高模型表达能力。FFM 模型参数量太大，一则容易过拟合，二则不利于线上大规模部署 ( 内存压力 ) 。笔者更倾向于 Field-weighted FM，简单有效，在效果和实际应用上做了很好的 tradeoff 。1.1 FMFactorization Machineshttps://www.csi...

2019-07-10 10:21:33 631

原创 Shell 相关

一、每天删除历史数据：hive表和hdfs数据删除180天前（该天）的数据#!/bin/bashcurr_date=`date -d "-1 day ${1}" +%Y-%m-%d`echo 'current date: ' ${curr_date}target_date=`date -d "${curr_date} 180 days ago" +%Y-%m-%d`echo 'tar...

2019-07-04 13:56:55 165

转载 Python相关

1.python 相关问题 stackoverflowhttps://github.com/qiwsir/StackOverFlowCn/blob/master/README.md

2019-06-10 09:32:58 83

转载算法（排序、红黑树等）汇总

python相关算法：https://github.com/qiwsir/algorithm/blob/master/README.md

2019-06-10 09:32:03 289

转载 python代码实战

一、《机器学习实战》Python实现。1：【关联规则】Apriori算法分析与Python代码实现，具体分析请参考博客：http://blog.csdn.net/gamer_gyt/article/details/511137532：【关联规则】FP-Tree算法分析与Python代码实现，具体分析请参考博客：http://blog.csdn.net/gamer_gyt/article/d...

2019-06-10 09:23:19 150

转载 Deep Learning 理解

一、word2vector1、 hierarchical softmax传统的softmax的最后一层需要计算每个单词的概率，效率太低，因此提出了替代方案：Hierarchical softmax。Hierarchical Softmax 基于这样的思想：相比于直接建模 P(y/x) ，我们可以先定义一个划分函数 c() 将 y 划分到区域 C，然后：即计算 x 条件下 y 的概率，先...

2019-06-05 09:43:56 172

转载知识整理

一、皮尔逊相关系数与协方差、标准差的关系参考：https://www.zhihu.com/question/20852004转化成“和的平方”以及“平方的和”，工程代码方便：

2019-05-29 14:54:58 391

原创 Spark Debug

报错：大数据量没问题，小数据量报错java.io.EOFException: Premature EOF: no length prefix availableat org.apache.hadoop.hdfs.protocolPB.PBHelper.vintPrefixed(PBHelper.java:2326)at org.apache.hadoop.hdfs.protocol.data...

2019-05-25 14:41:51 1304 1

原创 Hive表类型及使用技巧-拉链表

拉链表一、数据加工和维护概念：所谓拉链表就是记录一个事物从开始一直到当前状态的所有变化信息；通过比较，记录数据的生命周期，能够快速还原任意天的历史快照，而非全量的每天记录所有数据，因此极大节省了存储。一般表名后面xxx_chain数据加工方式：（1）拉链表中一般会存在一个字段“start_date”表示该记录的起始时间，不代表创建时间，非业务时间。一把会存在"createtime"...

2019-04-29 10:39:56 3491

原创 HIve 分析和窗口函数 WindowingAndAnalytics

HIve 分析和窗口函数 WindowingAndAnalytics常见的GROUP BY 和 DISTRIBUTE BY 等语句并不能支持诸如分组排名、滑动平均值等计算，原因是 GROUP BY 语句只能为每个分组的数据返回一条记录，而非每条数据一行。但是，Hive 0.11之后引入了窗口查询功能，使用 WINDOW 语句我们可以基于分区和窗口，在实现分组分析的目的的同时，为每条数据都生成一行...

2019-04-27 12:31:25 363

原创正态分布置信区间威尔逊置信区间(Wilson score interval)

一、正态分布标准正态分布标准正态分布就是均值为0，标准差为1的分布，如下图一般正态分布一般正态分布n，假设其均值是 μ，标准差为σ ，即服从 n~N(μ,σ)经过变换可以转换成标准正态分布：另X = (N - μ)/ σ，则X就是服从标准的正态分布了X~N(0,1)二、置信区间上图中的面积就是标准正态分布的概率，而置信区间就是变量的区间估计，例如图中的-1到1就是一个置信区间：...

2019-04-26 09:27:55 68458

转载 Git相关

1. 使用 git checkout 撤销本地修改放弃对本地已修改但尚未提交的文件的修改，还原其到未修改前的状态。注意：已 add/ commit 的文件不适用个方法，应该用本文提到的第二种方法。命令如下：git checkout . # 撤销对所有已修改但未提交的文件的修改，但不包括新增的文件git checkout [filename] # 撤销对指定文件的修改，...

2019-04-25 10:46:38 105

原创 Hive优化

一、hive表重新合并小文件merge_file="set mapreduce.input.fileinputformat.split.maxsize=268435456;set mapreduce.input.fileinputformat.split.minsize.per.node=268435456;set mapreduce.input.fileinputformat.split...

2019-04-25 10:43:31 174

原创 spark分词工具

分词工具调研一、背景调研了两种分词工具：Ansj：https://github.com/NLPchina/ansj_segHanLP（https://github.com/hankcs/HanLP#7-极速词典分词）最终选择了HanLP二、Ansj利用DicAnalysis可以自定义词库：val forest = DicLibrary.get()if(forest ...

2019-04-17 09:15:12 1450

原创 negative sampling负采样和nce loss

negative sampling负采样和nce loss一、Noise contrastive estimation（NCE）语言模型中，在最后一层往往需要：根据上下文c，在整个语料库V中预测某个单词w的概率，一般采用softmax形式其中partition function Z(c)的目的是normalize，使得p为一个概率分布。一般根据最大似然法估计上述参数，但是这个公式的计算量是...

2019-03-15 10:53:25 13294 1

原创 Seq2Seq中的Attention和self-attention

Seq2Seq中的Attention和self-attention一、Seq2Seq Model首先介绍Seq2Seq模型，进而引入Attention机制。Seq2Seq模型的经典应用是语言模型，类似于语言翻译的例子（英译汉），Seq2Seq的目的就是将英文句子（输入Sequence），转换为汉语句子（输出Sequence），这里的Sequence是由字（单词）的序列。这种Seq2Seq通常...

2019-03-08 19:29:39 3849 10

原创 Spark2.3 源码解析之梯度提升树 gradient boosting tree

Spark2.3 源码解析之梯度提升树 gradient boosting tree一、理论理论部分源自 Machine Learning-A Probabilistic Perspective(MLAPP)和Elements of Statistical Machine Learning(ESML)1、boostingboosting是一种greedy算法，书中也称作一种adapt...

2019-03-05 15:03:51 587

原创随笔记录

堡垒机上 Mysql数据导出：mysql -hgatelf2.jed.jddb.com -P3358 -udata_mill_rw -pKC4sZLf6RXTSPGwL -D data_mill -e “SELECT * FROM super_brand_info” >test.csv

2019-02-22 18:09:53 156

原创 Spark2.3 源码解析之随机森林 random forest

Spark2.3 源码解析之随机森林 random forest简介1. bagging如下图所示，bagging的思想“三个臭皮匠胜过诸葛亮” ，即训练多个弱分类器，之后大家共同产生最终结果：投票表决或者平均值。其中每个若分类器之间没有前后关联（与boosting区别），训练若分类器的前提就是随机采样。这里的抽样是有放回随机抽样，一般每个采样集和训练集的数量一致，即每个采样...

2019-02-02 17:07:37 865 1

原创 Spark2.3 决策树 decision tree 源码解析

Spark2.3 决策树 decision tree 源码解析一、简介决策树由节点和边构成，节点分为：内部节点和叶节点，其中内部节点表示一个特征，而叶节点表示一个分类，如下图决策树，也可以看成是If Then规则，每个实例都会覆盖其中一条路径（或规则）。二、树的构造决策树的本质就是根据数据，归纳出一套分类规则，与数据矛盾最小的规则。从所有可能的决策树中，找到最优决策树...

2019-02-02 16:57:20 559

原创 tree base—Spark2.3中树模型的基础类总结

tree base—Spark2.3中树模型的基础类总结一、Split一个特征存在多个split：判断goLeft 还是goRight/** * Interface for a "Split," which specifies a test made at a decision tree node * to choose the left or right path. */sea...

2019-02-02 16:45:50 685

原创 spark 2.x 源码分析之 Logistic Regression 逻辑回归

Logistic Regression 逻辑回归注：第一次写博客，希望互相交流改进。如果公式显示不完整，请看github原文一、二元逻辑回归 1、简介回归是解决变量之间的映射关系（x->y），而逻辑回归则通过sigmoid函数将映射值限定在(0,1)。sigmoid图像如下：假设特征是x，线性函数可以表示为：而逻辑回归则是...

2018-12-14 10:06:22 346

weixin_40901056的博客