ML_我叫龙翔天翼的博客-CSDN博客

ML

关注

文章平均质量分 96

关注数：文章数：18 文章阅读量：36524 文章收藏量：103

作者: 我叫龙翔天翼

广告,推荐,AI算法,hive, spark

展开

spark tensorflow tfrecords

依赖<dependency> <groupId>org.tensorflow</groupId> <artifactId>spark-tensorflow-connector_2.11</artifactId> <version>1.13.1</v...

原创 2020-04-17 16:57:15 · 613 阅读 · 0 评论
Attention中的Mask: query mask, key mask, future mask

Attention简介Attention是2015年被提出来的，在NLP领域大放光彩。Attention具有在繁多信息中自动focus到重点的能力，而且Attention可以实现并行，一定程度上可以替代LSTM等循环神经网络，提高模型效率。Attention的具体介绍可以参考Attention总结。根据上面的Attention总结，Attention可以看作是 QKV 模型，假设输入为 q，（...

原创 2019-07-27 14:45:43 · 9147 阅读 · 1 评论
Andrew Ng Stanford机器学习公开课总结（12）:k-means, 混合高斯分布, EM算法

Lecture 12 k-means, 混合高斯分布, EM算法本节主要讨论非监督学习的集中算法1. k-means clustering algorithmk-means算法是一种无监督的聚类算法，给定一个训练结合{x(1), . . . , x(m)}，并没有标签y的信息，k-means的目的是将数据分为若干簇(cluster)。k-means算法比较简单且容易理解，具体算法流程如下：...

翻译 2019-07-26 11:56:43 · 382 阅读 · 0 评论
LSH以及Look-alike 技术总结: Similarity-based,Regression-based,Attention-based

Look-alike简介Look-alike是在线营销活动中常用的一种技术，目的是根据广告主提供的用户，帮助其进行人群圈选。Look-alike的输入是一个user列表(可以是user id 或者电话号码等id标识)，这个user列表可以是广告主上一次活动的人群，可以是广告主的已有用户中高净值人群等等。这个输入人群列表有个专有名次叫做“种子用户(seeds)”。而Look-alike的输出还是一...

原创 2019-07-26 11:45:14 · 2293 阅读 · 3 评论
Andrew Ng Stanford机器学习公开课总结(5) Lecture 5 高斯判别分析和朴素贝叶斯

layout: posttitle: Andrew Ng Stanford机器学习公开课总结（5）subtitle: Lecture 5 高斯判别分析和朴素贝叶斯date: 2019-07-19author: ZhangWenXiangheader-img: img/post-bg-cook.jpgcatalog: truetags:-...

翻译 2019-07-21 12:35:15 · 340 阅读 · 0 评论
自然语言处理资料整理

斯坦福课程 http://web.stanford.edu/class/cs224n/百度云视频知乎作者笔记：https://www.zhihu.com/people/siliconvalleysddx/posts

转载 2019-07-15 15:09:39 · 146 阅读 · 0 评论
FM及其变种（转载）

一、区别特征交互作用这部分模型的演进思路就是根据假设来增加参数量 ( 即模型复杂度 ) 来提高模型表达能力。FFM 模型参数量太大，一则容易过拟合，二则不利于线上大规模部署 ( 内存压力 ) 。笔者更倾向于 Field-weighted FM，简单有效，在效果和实际应用上做了很好的 tradeoff 。1.1 FMFactorization Machineshttps://www.csi...

转载 2019-07-10 10:21:33 · 660 阅读 · 0 评论
Deep Learning 理解

一、word2vector1、 hierarchical softmax传统的softmax的最后一层需要计算每个单词的概率，效率太低，因此提出了替代方案：Hierarchical softmax。Hierarchical Softmax 基于这样的思想：相比于直接建模 P(y/x) ，我们可以先定义一个划分函数 c() 将 y 划分到区域 C，然后：即计算 x 条件下 y 的概率，先...

转载 2019-06-05 09:43:56 · 200 阅读 · 0 评论
python代码实战

一、《机器学习实战》Python实现。1：【关联规则】Apriori算法分析与Python代码实现，具体分析请参考博客：http://blog.csdn.net/gamer_gyt/article/details/511137532：【关联规则】FP-Tree算法分析与Python代码实现，具体分析请参考博客：http://blog.csdn.net/gamer_gyt/article/d...

转载 2019-06-10 09:23:19 · 172 阅读 · 0 评论
知识整理

一、皮尔逊相关系数与协方差、标准差的关系参考：https://www.zhihu.com/question/20852004转化成“和的平方”以及“平方的和”，工程代码方便：

转载 2019-05-29 14:54:58 · 434 阅读 · 0 评论
spark分词工具

分词工具调研一、背景调研了两种分词工具：Ansj：https://github.com/NLPchina/ansj_segHanLP（https://github.com/hankcs/HanLP#7-极速词典分词）最终选择了HanLP二、Ansj利用DicAnalysis可以自定义词库：val forest = DicLibrary.get()if(forest ...

原创 2019-04-17 09:15:12 · 1477 阅读 · 0 评论
negative sampling负采样和nce loss

negative sampling负采样和nce loss一、Noise contrastive estimation（NCE）语言模型中，在最后一层往往需要：根据上下文c，在整个语料库V中预测某个单词w的概率，一般采用softmax形式其中partition function Z(c)的目的是normalize，使得p为一个概率分布。一般根据最大似然法估计上述参数，但是这个公式的计算量是...

原创 2019-03-15 10:53:25 · 13548 阅读 · 1 评论
Seq2Seq中的Attention和self-attention

Seq2Seq中的Attention和self-attention一、Seq2Seq Model首先介绍Seq2Seq模型，进而引入Attention机制。Seq2Seq模型的经典应用是语言模型，类似于语言翻译的例子（英译汉），Seq2Seq的目的就是将英文句子（输入Sequence），转换为汉语句子（输出Sequence），这里的Sequence是由字（单词）的序列。这种Seq2Seq通常...

原创 2019-03-08 19:29:39 · 3944 阅读 · 10 评论
Spark2.3 源码解析之梯度提升树 gradient boosting tree

Spark2.3 源码解析之梯度提升树 gradient boosting tree一、理论理论部分源自 Machine Learning-A Probabilistic Perspective(MLAPP)和Elements of Statistical Machine Learning(ESML)1、boostingboosting是一种greedy算法，书中也称作一种adapt...

原创 2019-03-05 15:03:51 · 626 阅读 · 0 评论
Spark2.3 源码解析之随机森林 random forest

Spark2.3 源码解析之随机森林 random forest简介1. bagging如下图所示，bagging的思想“三个臭皮匠胜过诸葛亮” ，即训练多个弱分类器，之后大家共同产生最终结果：投票表决或者平均值。其中每个若分类器之间没有前后关联（与boosting区别），训练若分类器的前提就是随机采样。这里的抽样是有放回随机抽样，一般每个采样集和训练集的数量一致，即每个采样...

原创 2019-02-02 17:07:37 · 901 阅读 · 1 评论
Spark2.3 决策树 decision tree 源码解析

Spark2.3 决策树 decision tree 源码解析一、简介决策树由节点和边构成，节点分为：内部节点和叶节点，其中内部节点表示一个特征，而叶节点表示一个分类，如下图决策树，也可以看成是If Then规则，每个实例都会覆盖其中一条路径（或规则）。二、树的构造决策树的本质就是根据数据，归纳出一套分类规则，与数据矛盾最小的规则。从所有可能的决策树中，找到最优决策树...

原创 2019-02-02 16:57:20 · 590 阅读 · 0 评论
tree base—Spark2.3中树模型的基础类总结

tree base—Spark2.3中树模型的基础类总结一、Split一个特征存在多个split：判断goLeft 还是goRight/** * Interface for a "Split," which specifies a test made at a decision tree node * to choose the left or right path. */sea...

原创 2019-02-02 16:45:50 · 719 阅读 · 0 评论
spark 2.x 源码分析之 Logistic Regression 逻辑回归

Logistic Regression 逻辑回归注：第一次写博客，希望互相交流改进。如果公式显示不完整，请看github原文一、二元逻辑回归 1、简介回归是解决变量之间的映射关系（x->y），而逻辑回归则通过sigmoid函数将映射值限定在(0,1)。sigmoid图像如下：假设特征是x，线性函数可以表示为：而逻辑回归则是...

原创 2018-12-14 10:06:22 · 361 阅读 · 0 评论

ML

作者: 我叫龙翔天翼

spark tensorflow tfrecords

Attention中的Mask: query mask, key mask, future mask

Andrew Ng Stanford机器学习公开课 总结（12）:k-means, 混合高斯分布, EM算法

LSH以及Look-alike 技术总结: Similarity-based,Regression-based,Attention-based

Andrew Ng Stanford机器学习公开课 总结(5) Lecture 5 高斯判别分析和朴素贝叶斯

自然语言处理 资料整理

FM及其变种（转载）

Deep Learning 理解

python代码实战

知识整理

spark分词工具

negative sampling负采样和nce loss

Seq2Seq中的Attention和self-attention

Spark2.3 源码解析 之 梯度提升树 gradient boosting tree

Spark2.3 源码解析 之 随机森林 random forest

Spark2.3 决策树 decision tree 源码解析

tree base—Spark2.3中树模型的基础类总结

spark 2.x 源码分析 之 Logistic Regression 逻辑回归

Andrew Ng Stanford机器学习公开课总结（12）:k-means, 混合高斯分布, EM算法

Andrew Ng Stanford机器学习公开课总结(5) Lecture 5 高斯判别分析和朴素贝叶斯

自然语言处理资料整理

Spark2.3 源码解析之梯度提升树 gradient boosting tree

Spark2.3 源码解析之随机森林 random forest

spark 2.x 源码分析之 Logistic Regression 逻辑回归