circleF-CSDN博客

原创《百面机器学习》学习笔记（七）优化算法

《百面机器学习》学习笔记（七）优化算法1 有监督学习的损失函数1.1 分类问题1.1.1 0-1损失1.1.2 Hinge 损失1.1.3 Logistic-loss（二分类的交叉熵损失函数）1.1.4 交叉熵（Cross Entropy）损失函数：1.1.5 softmax-loss（多类别分类）1.2 回归问题1.2.1 均方差损失函数1.2.2 Huber损失 (huber loss)2 优...

2019-07-31 16:43:47 380

原创《百面机器学习》学习笔记：（五）非监督学习

《百面机器学习》学习笔记（五）非监督学习K-Means高斯混合模型（Gaussian Mixed Model，GMM）相比于监督学习，非监督学习的输入数据没有标签信息，需要通过算法模型来挖掘数据内在的结构和模式。非监督学习主要包含两大类学习方法：数据聚类和特征变量关联。其中，聚类算法往往是通过多次迭代来找到数据的最优分割，而特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。K-Me...

2019-07-15 15:35:53 271

原创 EM算法原理总结

参考：https://www.cnblogs.com/pinard/p/6912636.html《统计学习方法》李航1 EM算法EM算法是一种迭代算法，用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望（expectation）；M步，求极大（maximization）。所以这一算法称为期望极大算法（...

2019-07-06 00:27:22 1670

原创《百面机器学习》学习笔记：（一）特征工程

《百面机器学习》学习笔记（一）：特征工程1. 特征归一化1.1常用方法1.2 为什么需要对数值型特征做归一化（梯度下降）2. 类别型特征在对数据进行预处理时，应该怎样处理类别型特征？2.1 序列编码2.2 独热编码：高维度特征的问题2.3 二进制编码3. 高维组合特征的处理3.1 什么是组合特征？如何处理高维组合特征？3.2 如何处理高维组合特征？4. 组合特征4.1 怎样有效地找到组合特征？5....

2019-07-04 15:44:33 523

原创聚类算法(k_means)

1 聚类分析聚类：通过一定的算法将原始数据划分成多个数据簇没有预先定义好的类别同一簇内部数据样本之间有很大的相似性，不同簇内部的数据相似性很小相似度与距离度量：定义距离来度量表示相似度：欧式距离，曼哈顿距离（Dij=∣xi−xj∣+∣yi−yj∣D_{ij}=|x_i-x_j|+|y_i-y_j|Dij=∣xi−xj∣+∣yi−yj∣），闵可夫斯基距离（n次欧式距离），切...

2019-07-04 14:59:18 2339

原创《百面机器学习》学习笔记：（四）降维（PCA，LDA，SVD）

降维：在机器学习中经常会碰到一些高维的数据集，而在高维数据情形下会出现数据样本稀疏，距离计算等困难，这类问题是所有机器学习方法共同面临的严重问题，称之为“ 维度灾难 ”。另外在高维特征中容易出现特征之间的线性相关，这也就意味着有的特征是冗余存在的。特征提取与特征选择：特征提取用于创建一组新的，较小的特征，仍然可以捕获大部分有用信息（降维）。特征选择保留原始特征的子集，而特征提取创建新特征。1 ...

2019-07-03 11:27:23 660

原创《百面机器学习》学习笔记：（三）经典算法（SVM，LR，决策树）

《百面机器学习》学习笔记（三）经典算法SVM1. SVM 原理2. 空间上线性可分的两类点，在SVM分类的超平面上的投影仍然是线性可分的吗？3. 是否存在一组参数使SVM训练误差为0？4. 训练误差为0的SVM分类器一定存在吗？5. 加入松弛变量的SVM的训练误差可以为0吗？逻辑回归（Logistic Regression）1. LR原理2. 逻辑回归相比于线性回归，有何异同？3. 当使用逻辑回归...

2019-07-01 16:55:41 734

原创线性回归与逻辑回归(logistics regression)

1 逻辑斯谛分布设X是连续随机变量，X服从逻辑斯谛分布是指X具有如下的累积分布函数和概率密度函数:F(x)=P(X≤x)=11+e−(x−u)/γF(x) = P(X \leq x) = \frac{1}{1+e^{-(x-u)/\gamma}}F(x)=P(X≤x)=1+e−(x−u)/γ1 f(x)=F′(x)=e−(x−u)/γ(1+e−(x−u)/γ)2f(x) = F&#x2...

2019-07-01 11:26:57 1106

原创 SVM

SVM（Support Vector Machines）又称为支持向量机，是一种二分类的模型，其主要思想为找到空间中的一个更够将所有数据样本划开的超平面 WTX+b=0W^{T}X+b=0WTX+b=0，并且使得本本集中所有数据到这个超平面的距离最短。1 线性SVM在保证决策面方向不变且不会出现错分样本的情况下移动决策面，会在原来的决策面两侧找到两个极限位置（越过该位置就会产生错分现象），如...

2019-06-26 23:03:29 319

翻译《百面机器学习》学习笔记：（二）模型评估

《百面机器学习》学习笔记（二）模型评估1. 基本评价指标2. 评估指标的局限性2.1 准确率的局限性2.2 精确率与召回率的局限与权衡2.2.1 P-R（Precision-Recall）曲线2.2.2 F1 scoreMacro F1 （宏）Micro F1 （微）2.2.3 ROC曲线2.3 平方根误差2.3.1 MSE, RMSE, MAE2.3.2 RMSE 局限3. ROC曲线3.1 如...

2019-06-26 17:15:45 463

翻译 fastText与GloVe原理

Fasttext原理Fasttext1. fastText原理2. 模型架构目标函数3. 层次SoftMax4. N-gram子词特征5. fastText 词向量与word2vec对比6. 不平衡分类7. fastText 实现分类词向量训练GloVe1. 共现矩阵2. GloVe模型训练词向量Fasttextfasttext是facebook开源的一个词向量与文本分类工具，在2016年开源...

2019-06-25 22:45:01 1317

翻译 word2vec原理与Gensim使用

word2vec原理1 Neural Network Language Model2 CBOW2.1 Hierarchical Softmax2.2 Negative Sampling3 Skip-gram3.1 Hierarchical Softmax3.2 Negative Sampling4 负采样算法5. word2vec实战1 Neural Network Language Model...

2019-06-24 22:32:53 1643

原创 Knowledge Diffusion for Neural Dialogue Generation

论文：Shuman Liu, Hongshen Chen, Zhaochun Ren, Yang Feng, Qun Liu, Dawei Yin:Knowledge Diffusion for Neural Dialogue Generation. ACL (1) 2018: 1489-14981 Abstract没有利用知识来引导的对话系统，往往会产生简短、笼统、没有意义的回复，这篇文章提...

2019-06-17 15:52:54 309

m0_38018799的博客