原来是这样
文章平均质量分 64
anthea_luo
这个作者很懒,什么都没留下…
展开
-
关于xlnet的一些理解
看张俊林老师的深度学习枕边书时,一直有个疑问,Bert既然那么好, 除了transformer提取特征,使用的是双向的语言模型, 那跟单向的GPT比,肯定更好呀,为什么还会有人用GPT呢?知道答案后,害,真是外行问题: Bert属于AE阵营,适用于语义理解等场景; GPT属于AR阵营,适用于生成文本。两大阵营之间,发展出来了xlnet.xlnet常搜到的一句话就是: 最大化所有可能的序列的因式分解顺序的期望对数似然刚开始对这句话相当不理解,即使后面看明白了处理,感觉上面的描述也只是有关联关系,好像原创 2020-07-23 21:00:50 · 533 阅读 · 0 评论 -
tf.split 报错 ValueError: Rank-0 tensors are not supported as the num_or_size_splits argument to split
运行某网上源码时,报错:ValueError: Rank-0 tensors are not supported as the num_or_size_splits argument to split. Argument provided: 4报错的这一行内容是:split_seqs = tf.split(sequence, num_splits, axis=1)调试打印出来的 s...原创 2019-10-07 14:22:40 · 1221 阅读 · 0 评论 -
python函数参数中单独的*
python函数参数中单独的*python的可变参数*args和**kwargs是很常见的,但在别人的代码中看到 函数参数中有个单独的*,没明白这个写法有啥用,搜'函数参数 单独的*' 之类的也找不到想要的结果。试也没试出名堂来。。 知道了以后很简单,都不想在这记录了。。显得我多菜。。(虽然可惜这是事实)算了 还是记录一下吧,主要是方便人搜索。这个叫 命名关键字参数,搜这个结果就很多了。其......原创 2019-09-27 20:25:27 · 3126 阅读 · 6 评论 -
关于word2vec的一些疑问记录
初看刘建平老师的word2vec原理时,有几个疑问:1, 基于Hierarchical Softmax的word2vec计算过程,一会儿在说更新θ 一会儿在说更新词向量。现在使用word2vec 目标肯定是要得到最后的词向量。这个θ和词向量有何关联?2, 给定Xw 能有一条唯一的路径,我们要得到的词向量与这个路径有啥关系?3, 评论中有人说 "词向量是CBOW或是Skip-Gram模型...原创 2019-08-02 21:12:21 · 264 阅读 · 0 评论 -
一步一步理解欧拉公式
欧拉公式 理解原创 2019-06-30 12:50:03 · 17773 阅读 · 5 评论 -
beta分布 狄利克雷分布
有些恰当的比喻,简洁的却抓住本质的描述,很有帮助。有一些数学原理,可能你生活中曾使用过,甚至当作常识的,当它套上专有名词时,就有点不可亲近的味道。去弄清它吧,世界又被你踩在脚下了,有没有? 呵呵,开个玩笑。比如狄利克雷分布, 我刚开始接触这个名词是在前我司的大数据产品资料上。一段文字,当然也有图片,好像看懂了吧。。又好像没看懂。当然肯定没记住。不过,如果现在要我讲,我有信心能给大妈级别(抗拒用...原创 2018-06-10 21:13:11 · 681 阅读 · 0 评论 -
机器学习中的性能 与传统IT行业所指的性能 区别
之前看好多机器学习的文章,总不能理解他们说的模型性能好不好。 从传统行业来看,做的产品能跑起来,实现客户需求,这叫功能。功能实现了后,再看在超大话务模型/超大业务请求量下的表现,叫性能。 接着还有DFX, 即(Design for X, 可靠性/兼容性/可维护性/可测试性包括用户体验等等一系列) 但是在机器学习领域中,性能是指 模型最终的预测能力(准确性), 这个其实偏离传统行业的功能的意义。以...原创 2018-06-09 12:12:26 · 274 阅读 · 0 评论 -
对gibbs采样算法中的 罐子模型 的理解
在之前学习gibbs采样算法时,https://www.cnblogs.com/pinard/p/6867828.html对这句话,觉得很难理解, 不明白为什么要去掉i 联合分步的概率从哪里来 ? 这句话是整篇文章的精华和关键。。搜了其他很多的文章, 仍然不懂, 为何 排除当前词的主题分布,即 根据其他词的主题分布和主题下观察到的单词 可以用来计算 当前词 主题的概率 ?最后在这篇文章中醒悟了...原创 2018-06-09 12:04:59 · 724 阅读 · 0 评论 -
标量 非标量 用户可见分量 的理解
c++编译时有个报错: error: conversion from ‘const google::protobuf::Message’ to non-scalar type ‘tensorflow::NodeDef::NodeDef_AttrEntry’ requested这个问题解决是不难。顺便搜了一下,什么是标量, 什么是非标量。网上搜到的文章,给出的大致定义是 如果一个类型没有用户可见的...原创 2018-05-20 19:12:20 · 1738 阅读 · 0 评论 -
关于facenet 的accuracy 和 validation rate 理解
使用davidsandberg大侠的facenet 代码时, https://github.com/davidsandberg/facenet , 对于训练结果评价,提示类似如下:Accuracy: 0.99650+-0.00252Validation rate: 0.98367+-0.00948 @ FAR=0.00100可以看到有两个评价方法,accracy 和 validat...原创 2018-05-09 20:10:58 · 7680 阅读 · 16 评论