MachineLearning
文章平均质量分 92
cyz0202
这个作者很懒,什么都没留下…
展开
-
label-bias-problem
参考自:label-bias-problem1label-bias-problem2B站白板推导MEMM-CRF现象描述该问题来自对局部转移概率的归一化;直观地想象状态S的向外转移分支较少时,各分支会得到更多的probability;状态S的向外转移分支虽多,但是其实真实数据中这些转移发生次数都比较少,因为归一化,S的转移概率分布也可能和其他状态的常见转移一样;上述两种现象针对的问题就是,本身从当前状态S向外转移 在数据中并不常见,但是由于S外转分支少,再加上做归一化,就会.原创 2021-07-02 15:10:50 · 412 阅读 · 0 评论 -
GCN理解
主要内容参考自该知乎高赞回答 @superbrother,加入个人理解,侵删;本文介绍GCN原理,不是科普入门,需要熟悉矩阵、高数、深度学习;对矩阵分解不熟悉的请先看最后的补充知识部分(注意不是从头讲解)背景介绍为什么研究GCN主要是有不规则图需要处理的场景,如社交网络等;处理拓扑图空间特征的两种方式具体分析1)图卷积理论图 拉普拉斯矩阵为什么使用L(拉普拉斯)矩阵L矩阵的谱分解:GCN的核心基于拉普拉斯矩阵的谱分解如[何从传统的傅里叶变换、卷积类比到.原创 2021-03-23 17:46:28 · 301 阅读 · 1 评论 -
EM算法1
EM算法1原创 2021-01-24 01:16:32 · 166 阅读 · 2 评论 -
TF-IDF特征优缺点
本文为优缺点分析,算法的详细内容不做具体介绍;参考自该blog标准的TF-IDF公式如下(—后的文字表示说明): 优点:简单、快速缺点:仅以“词频”度量词的重要性,后续构成文档的特征值序列,词之间各自独立,无法反映序列信息;易受数据集偏斜的影响,如某一类别的文档偏多,会导致IDF低估;处理方法如下公式所示,增加类别权重(注:最后CF(tj,ck)...原创 2020-04-14 15:16:49 · 10190 阅读 · 0 评论 -
CART和决策树相关知识点
本文只是记录一些重要点,主要参考自该优秀blog,需要详细介绍的可参考之CART即分类与回归树,可做分类与回归;ID3/C4.5只能做分类;CART分类树:强制二分类,分类效果判别采用gini系数(又叫不纯度,越小越好),如下Gini(p)=∑k=1Kpk(1−pk)=1−∑k=1Kpk2 (2.1)Gini(p)...原创 2020-04-12 18:50:57 · 259 阅读 · 0 评论