2018年09月_Bayes_y

原创 LeetCode刷题之回溯法

LeetCode中回溯法的一些题总结最近刷LeetCode（惭愧，前两页还没刷完···）发现在好多问题中都碰到了回溯法，并且有一个固定的模板。于是想试着总结一下，并加深记忆，希望以后碰到类似的问题能信手拈来~利用回溯的题目，比较好识别，特点就是需要穷举才能得到答案。所以肯定是需要递归的。（吐槽一下自己，树的问题基本都需要递归，我每次碰到都要想半天···）话不多说，上题：LeetCode4...

2018-09-26 16:33:21 195

原创梯度消失，梯度爆炸及表现

梯度消失出现的原因经常是因为网络层次过深，以及激活函数选择不当，比如sigmoid函数。梯度爆炸出现的原因也是网络层次过深，或者权值初始化值太大。综合来看，这两种梯度问题产生的原因可以归结为网络深度，以及反向传播带来的遗留问题。反向传播基于的是链式求导法则。如果导数小于1，那么随着层数的增多，梯度的更新量会以指数形式衰减，结果就是越靠近输出层的网络层参数更新比较正常，而靠近输入层的网络层参...

2018-09-15 18:11:46 5196 1

原创 LeetCode 392 is subsequence

脑子秀逗了，看过的题目做的时候还是会忘记。晚上笔试的时候遇到判断是否为字符子串的问题。其实自己之前就在LeetCode上做过，但是！！！丝毫！！没有印象！！！而且！！！这道题很简单的啊！小拳拳锤我胸口！下面进入正题： Given a string s and a string t, check if s is subsequence of t. You may ass...

2018-09-14 23:40:26 180

转载 TF-IDF

接上一篇，同样在wind中考了，因为没怎么接触过自然语言处理，所以对这一类算法并不熟悉，只知道有这么个词儿···尴尬···参考：https://blog.csdn.net/lionel_fengj/article/details/53699903 算法应用：是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增...

2018-09-14 22:12:10 117

原创 PageRank原理

真尴尬····参加Wind的宣讲会，笔试第一个简答就是描述PageRank，我一脸懵逼·····我只知道这是谷歌用来对网页进行排序的算法，好像有个什么权重系数，什么什么来着？？？回来赶紧补上。这么重要经典的算法我都不知道，真是枉为立志搞算法的人了【哭唧唧】进入正题 PageRank的原理是，通过计算链接到一个网页的数量及质量来对该网页的重要程度有一个估计。它所依赖的假设是越重要...

2018-09-14 20:54:32 1350

原创降维方法

kNN首先，k近邻是一种监督学习方法；它的基本思路是这样的：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。如果是分类问题就用投票发，回归问题就用平均法。它的特点是，没有显式的训练过程，lazy learning的代表影响k近邻效果的两个因素; k值的选取，灰常重要，不同的k可能会导致不同的预测结果距离度量方式的选择（前面...

2018-09-14 14:37:34 227

原创聚类算法（二）

密度聚类密度聚类假设聚类结构能通过样本分布的紧密程度确定，通常情况下密度聚类算法从样本密度的角度来考察样本之间的可连接性，并基于可连接样本不断扩展聚类簇以获得最终的聚类结果DBSCAN基于一组邻域参数来刻画样本分布的紧密程度。事先不用预设聚类簇数 https://blog.csdn.net/xiaokang123456kao/article/details/74978572...

2018-09-14 11:48:38 265

原创聚类算法(一)---基于原型的聚类

高斯混合模型采用概率模型来表达聚类原型，簇划分则由原型对应的后验概率确定。求解利用EM算法原理看这里EM算法和梯度下降：为什么高斯混合模型不可以用梯度下降来求解？以及一些优化问题的求解方法参考这里...

2018-09-13 22:56:58 2583 1

原创树模型比较（二）

主要是看看随机森林，GBDT，XGBoost这些基于树的集成方法之间的异同。随机森林（RF）Bagging思想利用Boostrap采样，从样本中选取不同的集合构造决策树，整个过程可以并行；Boostrap采样方式带来了一个优势，能留下32%的数据从未被用过，可以用来进行包外估计两种扰动方式，样本扰动和属性扰动，增加了模型的多样性以及最终的泛化能力最终结果的得出：分类问题用投票...

2018-09-13 15:30:21 360

原创 XGBoost那些事儿

仔细把陈天奇大神的论文又读了一遍，对xgBoost的原理又有了一些深入的了解吧。XGBoost模型本身是Boosting方法，所以它的整体过程和传统的Boosting还是比较接近的，即串行化的建树过程。个人认为，XGBoost比较新奇点在于，在建树的过程中，结点分裂的时候使用的标准并不是传统的基于信息增益啊、信息增益比这类东西，而是根据损失函数自己定义了一个指标，并且在损失函数中也加入...

2018-09-12 23:54:07 556

原创树模型的一些理解（从决策树到GBDT）

1.决策树基本流程：整体是一个递归的过程，返回条件有三种：当前结点中所有样本的类别都为c，返回值为c; 当前结点中样本集合为空，此时返回父结点中类别数最多的类。把父节点的样本分布作为先验当前结点中样本的属性集合为空，或者所有样本属性取值相同，将当前结点标记为叶节点，返回样本最多的类别。利用样本的后验分布对当前结点，从属性集合A中选择最优划分属性a 对每一个属性a的取值，...

2018-09-08 21:29:12 1280

原创对LightGBM的一点理解

LightGBM是微软团队2017年发表在NIPS的一篇论文，也是一种基于GBDT的Boosting的方法。之前有了各种Boosting方法，以及在各类数据比赛中大放异彩的XGBoost，LightGBM的优势在哪里呢？LightGBM是一种基于GBDT的提升方法。对于这类基于树的模型，最耗时的部分就是在进行特征选择结点分裂时，需要遍历所有可能的划分点，计算信息增益，从而找到最优的划分...

2018-09-06 15:13:07 9874 1

原创贝叶斯分类

前言在做携程的笔试的时候，考到了利用朴素贝叶斯方法进行情感分析的问题，其实就是一道利用NB进行文本分类的题。所以在这里总结一下贝叶斯的基本知识，以做回顾。从贝叶斯判定准则讲起（这里省略一些公式）贝叶斯判定准则的大意是说，对于一个多分类问题，我们的目的是要找到一个判定准则hhh，使得总体风险最小化（这里的风险是指一个属于i的样本被误分到j类中）。而为使总体风险最小化，...

2018-09-05 19:37:59 673

暗时间