- 博客(4)
- 资源 (2)
- 收藏
- 关注
原创 字节跳动数据挖掘算法工程师一面(记录)
1、在做LR的时候,对连续数据做离散化处理的优势是什么? 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权...
2019-12-17 18:26:24 1705 2
原创 ELMO具体算法过程介绍
ELMo主要利用了 Bidirectional language models,公式具体如下所示:其中表示N-token序列具体操作如下:1.首先使用token embeddings或者一个字符级别的CNN来计算和上下文无关的2. 把传到L层的前向LSTMs。在每个k位置上,每层LSTM会输出一个和上文相关的(j=1,2……L)。最顶层的LSTM所输出的,通过一个softm...
2019-12-11 16:29:57 671 1
原创 pytorch入门学习1
现在pytorch的热度要比tensorflow更热了,所以也开始打算自学一下pytorch。首先最重要的是如何安装pytoch。我安装的是linux版本的。由于不知道会不会与tensorflow环境发生冲突,所以在安装之前,我还是新建了一个虚拟环境。然后在这个新的虚拟环境安装pytorch。步骤如下:1.conda create --name 你的虚拟环境名称2.source act...
2019-12-11 15:02:09 130
原创 深入浅出理解极大似然估计
在机器学习算法中,你能经常看到极大似然估计这个词语。比如在对逻辑回归求解全局最小值的时候就需要用上极大似然估计。极大似然估计是机器学习算法中必须掌握的一个知识点。极大似然估计是什么意思?首先,根据字面上来看,极大和估计都比较好理解,极大即最大化,估计即大约计算出来的样子。那么似然是什么意思呢?似然,即(likelihood),牛津词典的解释为可能性(同义词为probability)。所以极...
2019-11-20 10:31:50 950
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人