![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
shen A007
这个作者很懒,什么都没留下…
展开
-
特征选择,熵,条件熵,信息增益
特征选择,熵,条件熵,信息增益特征选择例子熵条件熵信息增益例子特征选择特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征,经验上扔掉这样的特征对最终的分类结果并没有什么大影响。通常特征选择的准则是信息增益或信息增益比例子上表是有15个样本组成的贷款申请训练数据,数据包含贷款申请人的4个特征(年龄,是否有工作, 是否有自己的房子,信贷情况),最后一列是类别。特征选择是决定用哪个特征来划分特征空间,选择哪个特征作为根节点,可能的情况:直观上,如果一个特征具有更好的分类能力,或原创 2020-07-27 20:36:59 · 1422 阅读 · 0 评论 -
XGBoost论文阅读
1. Main Work1.1Tree Boosting with Loss function假设给定一个数据集DDD中有nnn个样本,每个样本有mmm维特征,通过训练数据集DDD,我们得到kkk棵树。这kkk棵树累加的值就是我们的预测值。yi^=∑k=1kfk(xi)fk∈F\widehat{y_i}=\sum_{k=1}^kf_k(x_i)\qquad f_k\in\mathcal{F}...原创 2020-04-22 18:24:06 · 193 阅读 · 0 评论 -
From Word Embeddings To Document Distances论文总结
前言最近阅读的论文FromWord Embeddings To Document Distances.做一个小总结。作为一个NLP刚刚开始,而且还没有入门的小白,很多的概念都不懂,一点点的查吧,边查边做笔记【苦笑脸】。例如word embedding,word2vec,bag-of-words,本文将详细解释相关的概念并加入我自己对文章的了解。基本概念word embedding:翻译过来...原创 2020-03-15 21:31:15 · 347 阅读 · 0 评论