fenss-CSDN博客

原创决策树、CART与GBDT

决策树、CART与GBDTGBDT是一种boosting方法，基本理念是组合多个弱模型形成强模型，而每个弱模型的目标都是拟合历史弱模型的残差。GBDT同时也是一种树方法，可以理解为回归树的一种改进，而提到树回归，就不可避免先谈谈决策树与CART。基本概念几乎所有的树方法，计算过程都是在当前的数据集上寻找一个最优的划分，每次以一个特征的值作为划分依据。从划分原则的角度看，最原始的决策树，通过计算划分带来的信息增益去判断当前选择哪个特征，对于离散特征，直接按具体的值计算信息增益，所以可能会形成多叉树；对

2021-05-27 14:50:28 736

原创半监督主题模型Correlation Explanation

半监督主题模型Correlation ExplanationCorrelation Explanation是一种分析变量相关性的方法，可用于包含离散变量的任意数据（作者似乎把连续数据的模型也弄出来了，详细可参考作者的Github）。Correlation Explanation的基本原理是，假设变量YYY能对变量XXX很好地进行“解释”，即变量YYY与XXX强相关，那么XXX应该具有较低的不确定性，而对解释程度的量化是使用熵来描述的。换个思路理解这个原理，有点像使用YYY去对XXX进行聚类（对特征聚类而

2021-05-17 15:40:53 1087

原创大规模标签、层级标签分类问题简单调研

Extreme Multi Label Classification方法综述大规模多标签分类大致有以下几类解决办法：1 VS. All classifier把多标签分类看成多个二分类，为每一个label训练一个二分类模型，其缺点是，各个标签之间相互无关，当标签数量非常非常多的时候，难以训练与标签数量相同的模型。Label Tree based其思想类似决策树，把所有的标签按树状结构组织起来，从上到下分类，每层只需要训练一个小的分类器，最终分类的叶子节点。这样的缺点是，从上到下的分类过程中

2021-04-28 14:23:27 2663

原创文本生成简单调研

简单粗暴的GPT2Language Models are Unsupervised Multitask Learners基本原理：自回归语言模型（参考Transformer decoder及Language model）；理念：自回归生成的形式可以适用于大部分任务，只需要把输入输出拼接起来，就可以让模型自行学会应该生成什么东西，这里可以理解为把很多任务的输入输出形式统一为自回归生成，比如阅读理解的Pointer networks、分类、生成的SeqSeq等，同时另一部分任务还是可以使用Trans

2021-04-28 14:18:59 164

原创 ElasticSearch理解线索

ElasticSearch理解线索百亿级数据全文检索工具，ElasticSearch鼻祖Lucene：详细分析Lucene的索引结构；系统学习ElasticSearch：详细介绍了各种查询方式，match、match_phrase、term、range等；ElasticSearch详解：ES简介，数据库架构的演化，基础概念及简单性能测试（存疑，分词一般400条/秒左右，索引是怎么做到12000文档/秒的？因为文本长度的差异？）；图解ElasticSearch原理：按Node→Shard

2021-04-28 14:15:24 160

原创概率图结构学习的贝叶斯方法2——快速计算方法

概率图结构学习的贝叶斯方法2——快速计算方法对于给定的概率图结构，上一篇已经介绍了根据数据计算其结构概率的方法：P(BS,D)=P(BS)∏i=1n∏j=1qi(ri−1)!(Ni,j+ri−1)!∏k=1riNi,j,k!P(B_S, D) = P(B_S) \prod_{i = 1}^n \prod_{j = 1}^{q_i}{ \frac{(r_i - 1)!}{(N_{i, j} + r_i - 1)!} \prod_{k = 1}^{r_i} N_{i, j, k}!

2021-03-16 11:43:09 238

原创图、拉普拉斯矩阵与傅里叶变换

傅里叶变换（Fourier Transform）空间、基，内积与投影此处各种概念来自《Linear Algebra Done Right》R3R^3R3中的一组基：e1=[1,0,0]T,e2=[0,1,0]T,e3=[0,0,1]Te_1 = [1, 0, 0]^T, e_2 = [0, 1, 0]^T, e_3 = [0, 0, 1]^Te1=[1,0,0]T,e2=[0,1,0]T,e3=[0,0,1]T对任意一个向量，比如[2,3,4]T[2, 3, 4]^T[2,3,4]T

2021-03-09 12:56:13 1328

原创《FAQ-based Question Answering via Knowledge Anchors》笔记

《FAQ-based Question Answering via Knowledge Anchors》笔记本日志介绍的文章发表于NLPCC 2020，不是什么顶会，主要是跟个人最近工作内容比较相关，同时文章引用了一种传统的基于模板的关系抽取方法，对个人启发还是比较大的，毕竟近年来的风气都是无脑DL。简介FAQ式问答是目前问答系统中应用较多的一种方法，大部分FAQ式问答系统均采用问题——问题匹配的方法训练模型，如典型的孪生网络（Siamese Networks）架构，模型通常学习到文本的字面相似度，或

2021-03-09 12:49:56 338

原创有监督HMM参数求解的推导

首先需要明确，HMM学习的目标函数到底是什么：HMM是一种有向概率图模型，在有监督的情况下，使用极大似然估计最大化联合概率，求解最优的参数，即：L(θ)=p(x,z∣θ)L(\theta) = p(x, z| \theta)L(θ)=p(x,z∣θ)xxx是观测序列，zzz是状态序列，联合概率表示为：p(x,z∣θ)=∏t=0T−1p(xt+1∣zt+1,θ)p(zt+1∣zt,θ)p(x, z| \theta) = \prod_{t = 0}^{T - 1} p(x_{t + 1}

2021-03-08 10:55:42 257

原创 LDA与Gibbs Sampling

LDA与Gibbs Sampling统计推断简介待补充B\BetaB函数与Γ\GammaΓ函数的性质待补充Beta\text{Beta}Beta、Dirichlet\text{Dirichlet}Dirichlet分布与二项、多项分布待补充LDA的概念与似然表示LDA（Latent Dirichlet Allocation）使用概率生成模型的方式描述文档——主题——单词之间的关系，LDA原文的概率图描述如下：原文中对每篇文章的每个单词，生成过程描述如下：Choose N∼Poiss

2021-03-08 10:50:00 359

原创概率图结构学习的贝叶斯方法1——结构概率计算

概率图结构学习的贝叶斯方法1——结构概率计算机器学习中，概率图常用于描述变量之间的依赖关系，其中又分为有向图与无向图。常见的有向图模型有NB（朴素贝叶斯）、HMM、PLSA、LDA等，而这些模型通常需要在变量之间的依赖上加入各种结构性的假设或简化，如NB假设特征变量相互独立、HMM假设状态变量之间的依赖是链式的、PLSA与LDA假设变量之间的生成具有某种层次关系。贝叶斯网络则是一种从数据中学习出变量之间联系（结构）的模型，这篇日志介绍一种经典的贝叶斯网络结构学习方法，称为K2算法，主要参考这篇论文：A

2021-03-08 10:45:00 416

fenss的博客