自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 推荐系统学习秘籍

本篇博客主要内容是对推荐系统进行详细的概述及讲解,对新手来说是非常适合的。本篇文章主要内容包括推荐系统的相关概念、推荐系统的架构和流程、常见的推荐算法、挖掘、召回、排序、评估和总结这几部分。推荐系统本质上是解决 用户、信息和环境的匹配,即,Y=F(Xi,Xu,Xc)Y = F(X_i, X_u, X_c)Y=F(Xi​,Xu​,Xc​)推荐系统推荐系统包括整体技术架构,推荐系统架构和推荐...

2019-12-25 19:45:51 250

转载 一个人,向南走了一公里,然后向东走1公里,然后向北走一公里

一个人,向南走了一公里,然后向东走1公里,然后向北走一公里,这时候他发现他回到原来的地方了,这时怎么回事呢?  这道题是不是很简单?不过你还真不一定能做的出来准确的答案。  好吧,不相信的话,让你先做十分钟。你的答案是北极点?  好吧,我承认你这个答案是正确的。不过你是否还需要再考虑考虑?x*x=4,你如果解这个方程只得出x=2是不会得分的。  再给你10分钟。想到了吗?假如我在距离南...

2018-10-23 12:24:17 4215

原创 深度学习之胶囊网络CapsNet

论文地址:https://arxiv.org/abs/1710.09829github地址:https://github.com/naturomics/CapsNet-Tensorflow胶囊网络的理解我的理解:胶囊网络是CNN的升级版,它们有很多相似的地方和根本的不同点。CNN:每个神经元的输出是标量CapsuleNet:每个神经元的输出是向量,也就是多个标量的结合类比一下CNN和...

2018-09-27 17:06:05 2295

原创 DenseNet论文解读理解

论文名称:Densely Connected Convolutional Networks 论文链接:https://arxiv.org/pdf/1608.06993.pdf 代码的github链接:https://github.com/liuzhuang13/DenseNet DenseNet作者在开头讲述了诸如ResNets、FractalNets、Highway等网络,...

2018-09-09 23:18:47 7904

原创 机器学习之过拟合的解决方法

过拟合过拟合,是指模型在训练集上表现的很好,但是在交叉验证集合测试集上表现一般,也就是说模型对未知样本的预测表现一般,泛化(generalization)能力较差。一般防止过拟合的方法有early stopping、数据集扩增(Data augmentation)、正则化(Regularization)、Dropout等。Early stopping:在模型对训练数据集迭代...

2018-09-06 17:56:02 329

原创 机器学习之随机森林和GBDT的区别以及Xgboost和GBDT的区别

随机森林:理解:多棵决策树(CART树)https://blog.csdn.net/blank_tj/article/details/82081002组合而成,分类问题:每棵树投票找最高票;回归问题:每棵树的值求和取平均。特点:随机森林基于Bagging https://blog.csdn.net/blank_tj/article/details/82229322,所以每次训练随机从总数据...

2018-09-06 08:44:04 7132 1

原创 机器学习算法之Boosting算法原理和GBDT原理推导

针对Boosting的基本介绍在我的这篇文章中详细介绍了https://blog.csdn.net/blank_tj/article/details/82229322简单总结Boosting:初始对每个样本分配相同的权重,每次经过分类,把对的结果的权重降低,错的结果权重增高,如此往复,直到阈值或者循环次数。梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数);提...

2018-08-31 21:45:11 9432 6

原创 机器学习算法之Adaboost原理和计算过程

AdaBoost算法是基于Boosting思想的机器学习算法,AdaBoost是adaptive boosting(自适应boosting)的缩写,其运行过程如下: 1) 计算样本权重{(x1,y1),(x2,y2),...,(xn,yn)}{(x1,y1),(x2,y2),...,(xn,yn)}\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\} 设定每个样本的权重...

2018-08-31 14:31:40 677

原创 你想看的集成学习之bagging和boosting区别特征及例子

这篇文章主要讲述集成学习的bagging和boosting。首先bagging和boosting是集成学习的两个大家族,每个家族也包括很多成员,例如boosting包括adaboost、xgboost,bagging也有RandomForest等方法。既然bagging和boosting是这些算法的基础,那他们的思想是什么呢?Bagging和Boosting的理解与思想简单总结Ba...

2018-08-30 23:04:57 5209

原创 这就是XGBoost算法原理

GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。 GBDT是...

2018-08-27 16:01:37 646

原创 十大机器学习算法之EM算法讲解及推导

EM算法也就是Expectation Maximization Algorithm,它是基于极大似然估计方法,如果大家还不是很熟悉极大似然估计可以看看这篇文章https://blog.csdn.net/blank_tj/article/details/82015361EM的理解首先极大似然估计解决了一个什么样的问题呢?极大似然估计是一个已知模型也就是什么样的分布,但是不知道这个分布...

2018-08-26 23:30:18 1197 1

原创 机器学习常用的熵

熵关于信息量、信息熵可以参考我的这篇文章https://blog.csdn.net/blank_tj/article/details/82056413 信息量: I(x)=−log2 p(x)I(x)=−log2 p(x)I(x) = - log_2\ p(x) 我们把这个公式叫做信息量的公式,前面的负号确保了信息一定是正数或者是0(低概率事件带来高的信息量)。 底...

2018-08-26 16:13:35 371

原创 你想知道的决策树原理及推导

本篇博客的目录: 特征 思想 信息增益 几个小知识点 决策树直观的例子 ID3,CART,C4.5算法决策树的特征优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能会产生过度匹配问题,不能有效利用特征间的关联关系 适用数据类型:数值型和标称型决策树构造思想要构造决策树,就需要根据样本数据集的数据特征对数据集进行划...

2018-08-26 15:21:26 3734

原创 最简单的信息熵

信息熵的公式H(X)=−∑p(xi)log(p(xi))H(X)=−∑p(xi)log(p(xi))H(X) = -\sum p(x_i)log(p(x_i))其中X表示随机变量,随机变量的取值为(x1,x2,...,xn)(x1,x2,...,xn)(x_1,x_2,...,x_n),p(xi)p(xi)p(x_i)表示事件xixix_i发生的概率,且有∑p(xi)=1∑p(xi)=1\...

2018-08-25 23:10:02 1351 1

原创 机器学习之极大似然估计的详细理解

求最大似然估计量 θ^θ^\hat\theta 的一般步骤:写出似然函数对似然函数取对数,并整理求导数解似然方程。最大似然估计的特点:1) 比其他估计方法更加简单 2)收敛性:无偏或者渐进无偏,当样本数目增加时,收敛性质会更好 3)如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,江东安置非常差的估计结果。最大似然估计的目的就是:利...

2018-08-24 11:39:47 1786

原创 Logistic Regression逻辑回归原理及推导

逻辑回归算法,虽说名字有回归,实则是一个分类模型,而且是二分类。 Logistic本质上是一个基于条件概率的判别模型(Discriminative Model) g(z) = 11+e−z11+e−z\frac{1}{1+e^{-z}} 通过这个图像sigma函数,通常以0.5为分界,大于0.5为正样本,反之为负样本,是一个二分类的方法。 那么将这个函数扩展到多维空间,就是说不只是二分...

2018-08-23 22:08:59 805

原创 机器学习小白最想看的SVM

我通过这篇博客https://blog.csdn.net/d__760/article/details/80387432,对SVM的理解学到很多,具体的推导过程大家可以看里面,我通过用一种最好不用数学的方式把我的理解展示出来,给一些新手,就像我一样,以前只会用不知道怎么来的。SVM也叫做支持向量机,所谓的支持向量是指在多维空间下进行分类任务中用到的点。简单来说,SVM主要用来分类,在一个二维空...

2018-08-06 23:26:21 590

原创 机器学习基础知识点

网上总看到的一些机器学习基础知识,现在为了自己更好的学习,总结一下,列出一个大纲,然后我再分节去记录。机器学习常见问题1.几种模型(SVM,LR,GBDT,EM)的原理及公式推导 2. RF,GBDT的区别;GBDT,Xgboost的区别 3. 决策树处理连续值的方法 4. 特征选择的方法 5. 过拟合的解决方法 6. K-means的原理,优缺点以及改进 7. 常见分类模型(...

2018-08-06 20:21:14 321

原创 TJU小白的第一天记录

今天是本小白第一次写博客,我会记录下我学习到的东西,一直想写啦,今天终于提起笔,那就立个flag开始记录喽~由于最近学习的内容,我会主要在深度学习领域进行学习,我想我会在强化学习,自然语言处理(待学习),情感分析,图像,机器学习算法,数据结构及算法,广告点击预测等等方面进行记录。说了这么多,简单说我就想督促一下自己努力学习,切勿浪费时光,还有一年半学硕毕业,争取能被喜欢的公司的算法岗收了,...

2018-08-04 17:44:11 166

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除