blank_tju-CSDN博客

原创推荐系统学习秘籍

本篇博客主要内容是对推荐系统进行详细的概述及讲解，对新手来说是非常适合的。本篇文章主要内容包括推荐系统的相关概念、推荐系统的架构和流程、常见的推荐算法、挖掘、召回、排序、评估和总结这几部分。推荐系统本质上是解决用户、信息和环境的匹配，即，Y=F(Xi,Xu,Xc)Y = F(X_i, X_u, X_c)Y=F(Xi,Xu,Xc)推荐系统推荐系统包括整体技术架构，推荐系统架构和推荐...

2019-12-25 19:45:51 274

转载一个人，向南走了一公里，然后向东走1公里，然后向北走一公里

一个人，向南走了一公里，然后向东走1公里，然后向北走一公里，这时候他发现他回到原来的地方了，这时怎么回事呢？　　这道题是不是很简单？不过你还真不一定能做的出来准确的答案。　　好吧，不相信的话，让你先做十分钟。你的答案是北极点？　　好吧，我承认你这个答案是正确的。不过你是否还需要再考虑考虑？x*x=4，你如果解这个方程只得出x=2是不会得分的。　　再给你10分钟。想到了吗？假如我在距离南...

2018-10-23 12:24:17 4265

原创深度学习之胶囊网络CapsNet

论文地址：https://arxiv.org/abs/1710.09829github地址：https://github.com/naturomics/CapsNet-Tensorflow胶囊网络的理解我的理解：胶囊网络是CNN的升级版，它们有很多相似的地方和根本的不同点。CNN：每个神经元的输出是标量CapsuleNet：每个神经元的输出是向量，也就是多个标量的结合类比一下CNN和...

2018-09-27 17:06:05 2313

原创 DenseNet论文解读理解

论文名称：Densely Connected Convolutional Networks 论文链接：https://arxiv.org/pdf/1608.06993.pdf 代码的github链接：https://github.com/liuzhuang13/DenseNet DenseNet作者在开头讲述了诸如ResNets、FractalNets、Highway等网络，...

2018-09-09 23:18:47 7939

原创机器学习之过拟合的解决方法

过拟合过拟合，是指模型在训练集上表现的很好，但是在交叉验证集合测试集上表现一般，也就是说模型对未知样本的预测表现一般，泛化（generalization）能力较差。一般防止过拟合的方法有early stopping、数据集扩增（Data augmentation）、正则化（Regularization）、Dropout等。Early stopping:在模型对训练数据集迭代...

2018-09-06 17:56:02 342

原创机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

随机森林：理解：多棵决策树（CART树）https://blog.csdn.net/blank_tj/article/details/82081002组合而成，分类问题：每棵树投票找最高票；回归问题：每棵树的值求和取平均。特点：随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322，所以每次训练随机从总数据...

2018-09-06 08:44:04 7191 1

原创机器学习算法之Boosting算法原理和GBDT原理推导

针对Boosting的基本介绍在我的这篇文章中详细介绍了https://blog.csdn.net/blank_tj/article/details/82229322简单总结Boosting：初始对每个样本分配相同的权重，每次经过分类，把对的结果的权重降低，错的结果权重增高，如此往复，直到阈值或者循环次数。梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合(基函数)；提...

2018-08-31 21:45:11 9511 6

AdaBoost算法是基于Boosting思想的机器学习算法，AdaBoost是adaptive boosting（自适应boosting）的缩写，其运行过程如下： 1) 计算样本权重{(x1,y1),(x2,y2),...,(xn,yn)}{(x1,y1),(x2,y2),...,(xn,yn)}\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\} 设定每个样本的权重...

2018-08-31 14:31:40 696

原创你想看的集成学习之bagging和boosting区别特征及例子

这篇文章主要讲述集成学习的bagging和boosting。首先bagging和boosting是集成学习的两个大家族，每个家族也包括很多成员，例如boosting包括adaboost、xgboost，bagging也有RandomForest等方法。既然bagging和boosting是这些算法的基础，那他们的思想是什么呢？Bagging和Boosting的理解与思想简单总结Ba...

2018-08-30 23:04:57 5237

原创这就是XGBoost算法原理

GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力（generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。 GBDT是...

2018-08-27 16:01:37 669

原创十大机器学习算法之EM算法讲解及推导

EM算法也就是Expectation Maximization Algorithm，它是基于极大似然估计方法，如果大家还不是很熟悉极大似然估计可以看看这篇文章https://blog.csdn.net/blank_tj/article/details/82015361EM的理解首先极大似然估计解决了一个什么样的问题呢？极大似然估计是一个已知模型也就是什么样的分布，但是不知道这个分布...

2018-08-26 23:30:18 1246 1

原创机器学习常用的熵

熵关于信息量、信息熵可以参考我的这篇文章https://blog.csdn.net/blank_tj/article/details/82056413 信息量： I(x)=−log2 p(x)I(x)=−log2 p(x)I(x) = - log_2\ p(x) 我们把这个公式叫做信息量的公式，前面的负号确保了信息一定是正数或者是0(低概率事件带来高的信息量)。底...

2018-08-26 16:13:35 382

原创你想知道的决策树原理及推导

本篇博客的目录：特征思想信息增益几个小知识点决策树直观的例子 ID3，CART，C4.5算法决策树的特征优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据缺点：可能会产生过度匹配问题，不能有效利用特征间的关联关系适用数据类型：数值型和标称型决策树构造思想要构造决策树，就需要根据样本数据集的数据特征对数据集进行划...

2018-08-26 15:21:26 3749

原创最简单的信息熵

信息熵的公式H(X)=−∑p(xi)log(p(xi))H(X)=−∑p(xi)log(p(xi))H(X) = -\sum p(x_i)log(p(x_i))其中X表示随机变量，随机变量的取值为(x1,x2,...,xn)(x1,x2,...,xn)(x_1,x_2,...,x_n)，p(xi)p(xi)p(x_i)表示事件xixix_i发生的概率，且有∑p(xi)=1∑p(xi)=1\...

2018-08-25 23:10:02 1391 1

原创机器学习之极大似然估计的详细理解

求最大似然估计量 θ^θ^\hat\theta 的一般步骤：写出似然函数对似然函数取对数，并整理求导数解似然方程。最大似然估计的特点：1）比其他估计方法更加简单 2）收敛性：无偏或者渐进无偏，当样本数目增加时，收敛性质会更好 3）如果假设的类条件概率模型正确，则通常能获得较好的结果。但如果假设模型出现偏差，江东安置非常差的估计结果。最大似然估计的目的就是：利...

2018-08-24 11:39:47 1818

原创 Logistic Regression逻辑回归原理及推导

逻辑回归算法，虽说名字有回归，实则是一个分类模型，而且是二分类。 Logistic本质上是一个基于条件概率的判别模型（Discriminative Model） g(z) = 11+e−z11+e−z\frac{1}{1+e^{-z}} 通过这个图像sigma函数，通常以0.5为分界，大于0.5为正样本，反之为负样本，是一个二分类的方法。那么将这个函数扩展到多维空间，就是说不只是二分...

2018-08-23 22:08:59 816

原创机器学习小白最想看的SVM

我通过这篇博客https://blog.csdn.net/d__760/article/details/80387432，对SVM的理解学到很多，具体的推导过程大家可以看里面，我通过用一种最好不用数学的方式把我的理解展示出来，给一些新手，就像我一样，以前只会用不知道怎么来的。SVM也叫做支持向量机，所谓的支持向量是指在多维空间下进行分类任务中用到的点。简单来说，SVM主要用来分类，在一个二维空...

2018-08-06 23:26:21 619

原创机器学习基础知识点

网上总看到的一些机器学习基础知识，现在为了自己更好的学习，总结一下，列出一个大纲，然后我再分节去记录。机器学习常见问题1.几种模型（SVM，LR，GBDT，EM）的原理及公式推导 2. RF，GBDT的区别；GBDT，Xgboost的区别 3. 决策树处理连续值的方法 4. 特征选择的方法 5. 过拟合的解决方法 6. K-means的原理，优缺点以及改进 7. 常见分类模型（...

2018-08-06 20:21:14 330

原创 TJU小白的第一天记录

今天是本小白第一次写博客，我会记录下我学习到的东西，一直想写啦，今天终于提起笔，那就立个flag开始记录喽～由于最近学习的内容，我会主要在深度学习领域进行学习，我想我会在强化学习，自然语言处理（待学习），情感分析，图像，机器学习算法，数据结构及算法，广告点击预测等等方面进行记录。说了这么多，简单说我就想督促一下自己努力学习，切勿浪费时光，还有一年半学硕毕业，争取能被喜欢的公司的算法岗收了，...

2018-08-04 17:44:11 171

blank_tj的博客