Word2Vec 源码

之前微信暑期实习面试有问过word2vec的底层实现,之前只掌握了原理和掉包,现在补补Word2Vec的C源码吧。 文末附源码。 参考:https://blog.csdn.net/jeryjeryjery/article/details/80245924 流程: 训练: (一...

2019-05-06 15:52:07

阅读数 18

评论数 0

百度NLP面试记录(实习offered)

4月20日,百度远程视频面试。(只记得部分) 11:00 一面:(60min) 1.自我介绍 2.项目 3.word2vec两个模式,两个优化,具体实现细节。 4.bilstmcrf的具体实现步骤,crf的原理,优势。 5.attention的原理。 6.C++虚函数 7.逻辑回归...

2019-05-03 13:37:59

阅读数 30

评论数 0

机器学习算法拾遗:(十)朴素贝叶斯

1、模型的定义    朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分裂方法。首先我们来了解下贝叶斯定理和所要建立的模型。对于给定的数据集      假定输出的类别yi∈ {c1, c2, ...., ck},朴素贝叶斯通过训练数据集的条件概率分布P(x|y)来学习联合概率。因此在这里我们近...

2019-04-15 18:06:54

阅读数 27

评论数 0

机器学习中的优化算法

优化算法 1、梯度下降法   梯度下降法可以说是机器学习中最常用的算法,当然在深度学习中也会使用。不过一般使用的都是梯度下降法的变体—小批量梯度下降法,因为在样本较大时使用全样本进行梯度下降时需要计算的梯度太多,导致计算量会非常大。梯度下降法是一种迭代算法,选取合适的初值$x^{(0)}$,不...

2019-04-15 17:34:04

阅读数 34

评论数 0

机器学习算法拾遗:(九)降维(SVD, PCA)

PCA   降维方法有很多,而且分为线性降维和非线性降维,本篇文章主要讲解线性降维。 1、奇异值分解(SVD) 2、主成分分析(PCA)    首先假设在低维空间存在这样一个超平面,将数据从高维映射到该超平面上会使得样本之间的方差最大(样本之间方差最大,也就意味着样本在映射到低维之后仍...

2019-04-15 17:13:43

阅读数 28

评论数 0

机器学习算法拾遗:(八)广义线性模型(线性回归,逻辑回归)

广义线性模型(线性回归,逻辑回归)、线性回归 2、广义线性模型   无论是在做分类问题还是回归问题,我们都是在预测某个随机变量y 和 随机变量x 之间的函数关系。在推导线性模型之前,我们需要做出三个假设:   1)P(y|x; θ) 服从指数族分布   2)给定了x,我们的目的是预测T(y...

2019-04-15 17:01:06

阅读数 49

评论数 0

机器学习算法拾遗:(七)隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)

1、隐马尔科夫模型HMM   隐马尔科夫模型的图结构如下      从上图中主要有两个信息:一是观测变量xi仅仅与与之对应的状态变量yi有关;二是当前的状态变量yi仅仅与它的前一个状态变量yi-1有关。 隐马尔科夫模型是由初始概率分布,状态转移概率分布,以及观测概率分布确定的。设Q是所有可...

2019-04-15 16:37:43

阅读数 63

评论数 0

机器学习算法拾遗:(六)EM算法与高斯混合模型

基础:EM算法和高斯混合模型、EM算法 EM算法是一种迭代算法,用于含有隐变量的概率模型的极大似然估计,或者说是极大后验概率估计。 1、EM算法 EM算法的具体流程如下:   输入:观测变量数据Y,隐变量数据Z,联合分布P(Y, Z|θ),条件分布P(Z|Y, θ)   输出:模型参数θ...

2019-04-15 16:14:38

阅读数 42

评论数 0

机器学习中的损失函数

基础:损失函数 在机器学习中,所有的机器学习算法都或多或少的依赖于对目标函数最大化或者最小化的过程,我们常常把最小化的函数称为损失函数,它主要用于衡量机器学习模型的预测能力。在寻找最小值的过程中,我们最常用的方法是梯度下降法。 由于机器学习的任务不同,损失函数一般分为分类和回归两类,回归会预测...

2019-04-15 15:34:00

阅读数 17

评论数 0

机器学习算法拾遗:(五)聚类算法(K-means,密度聚类,层次聚类)

基础:聚类算法(K-means,密度聚类,层次聚类) 无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类,常见的无监督学习就是聚类算法。 聚类算法模型的性能度量大致有两类:   1)将模型结果与某个参考模型(或者称为外部指标)进行对比,私认为这种方法用的比较少,因为需要人...

2019-04-15 14:57:57

阅读数 109

评论数 0

机器学习算法拾遗:(四)GBDT与XGBOOST

基础:GBDT与xgboost 1、前向分布算法   引入加法模型      在给定了训练数据和损失函数L(y,f(x))的条件下,可以通过损失函数最小化来学习加法模型    而且在Boosting中模型之间又是有先后顺序的,因此可以在执行每一步加法的时候对模型进行优化,那么每一步只需...

2019-04-15 14:47:25

阅读数 69

评论数 0

机器学习算法拾遗:(三)集成学习(Adaboost、RandomForest)

基础:集成学习、Adaboost 根据个体学习器的生成方式不同,我们可以将集成算法分成两类:   1)个体学习器之间存在强依赖关系,必须串行化生成的序列化方法,这一类的代表是Boosting(常见的算法有Adaboost、GBDT);   2)个体学习器之间不存在强依赖关系,可以并行化生成每...

2019-04-15 14:06:40

阅读数 38

评论数 0

tensorflow保存、加载模型并预测数据

保存模型(ckpt) 仅需两行即可保存模型 saver = tf.train.Saver(tf.global_variables(), max_to_keep= 5) #第二个参数填任意数字(用于区别各个保存的模型) path = saver.save(sess, '../model/tex...

2019-04-05 14:22:56

阅读数 45

评论数 0

机器学习实战汇总

具体代码可以看github:代码github Ch2:k - 近邻算法 一,k近邻算法的工作原理: 存在一个样本数据集,也称作训练数据集,并且样本集中每个数据都存在标签,即我们知道样本集中每个数据与所属分类的对应关系。当输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进...

2019-04-03 13:52:45

阅读数 17

评论数 0

机器学习算法拾遗:(二)决策树(ID3, C4.5, CART)

基础:决策树 面试问题:决策树面试问题 补充: 6. ID3和C4.5有什么区别? Ans:①ID3采用信息熵的增益作为切分依据,倾向于选取特征值较多的属性进行划分;C4.5采用信息熵的增益比作为切分依据,对较少特征数目的属性有所偏好。 7.请谈一谈决策树剪枝有哪些方法? Ans:剪枝...

2019-04-02 18:07:09

阅读数 14

评论数 0

机器学习算法拾遗:(一)支持向量机(SVM)

参考:支持向量机 面试问题:SVM面试问题 使用:sklearn的SVM使用 1、感知机模型 分类模型: sign函数是指示函数(当wx+b > 0,f(x) = +1;当wx+b < 0,f(x) = -1 ;感知机的超平面是wx+b = 0) ...

2019-04-02 16:11:11

阅读数 45

评论数 0

使用sklearn做单机特征工程

特征工程之特征选择 特征工程之特征表达 特征工程之特征预处理 1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模...

2019-03-27 23:10:50

阅读数 22

评论数 0

【调参炼丹】深度学习训练的小技巧,调参经验。(2)

超参数(Hyper-Parameter)是困扰神经网络训练的问题之一,因为这些参数不可通过常规方法学习获得。 神经网络经典五大超参数: 学习率(Leraning Rate)、权值初始化(Weight Initialization)、网络层数(Layers) 单层神经元数(Units)、正则惩...

2019-03-18 19:32:02

阅读数 49

评论数 0

【调参炼丹】深度学习训练的小技巧,调参经验。

经常会被问到你用深度学习训练模型时怎么样改善你的结果呢?然后每次都懵逼了,一是自己懂的不多,二是实验的不多,三是记性不行忘记了。所以写这篇博客,记录下别人以及自己的一些经验。 Ilya Sutskever(Hinton的学生)讲述了有关深度学习的见解及实用建议: 获取数据:确保要有高质量的...

2019-03-18 19:23:22

阅读数 66

评论数 0

【调参炼丹】 Batch_size和Epoch_size

Batch_Size: 首先,batch_size来源于:小批量梯度下降(Mini-batch gradient descent) 梯度下降法是常用的参数更新方法,而小批量梯度下降是对于传统梯度下降法的优化。 深度学习中优化方法的对比 定义: Batch_size是每次喂给模型的样本数量...

2019-03-18 17:52:04

阅读数 647

评论数 2

提示
确定要删除当前文章?
取消 删除
关闭
关闭