ML算法
铁甲大宝
这个作者很懒,什么都没留下…
展开
-
搜索排序算法之BM25
BM25属于bag-of-word(词袋)模型,通常用来计算query与文档间相关性。下面先给出计算公式:score(D,Q)=∑i=1nidf(qi)∗tf(qi,D)∗(k1+1)tf(qi,D)+k1∗(1−b+b∗∣D∣avgdl)score(D,Q)=\sum_{i=1}^nidf(q_i)*\frac{tf(q_i, D)*(k_1+1)}{tf(q_i, D)+k_1*(1-b+...原创 2020-05-02 15:41:54 · 1353 阅读 · 0 评论 -
K-means原理与Python实现
k-means算法K-均值聚类算法(k-means clustering algorithm)是一种无监督聚类算法。本文前部分介绍算法原理及优缺点,后面通过Python代码实现一个简版的k-means算法。优缺点优点:简洁快速,算法的关键在于初始中心的选择和距离度量。缺点:K值(聚类的数目)需要事先确定。聚类结果对初始类中心的选取较为敏感。容易陷入局部最优。只能发现球型簇...原创 2020-05-02 15:14:03 · 363 阅读 · 1 评论 -
模型融合方法之Bagging与Boosting
Bagging从原始样本集中有放回抽样,获取训练子集。假设训练集有N个样本,每轮从训练集中有放回的抽取N个训练样本。共进行k轮抽取,得到k个训练子集。(k个训练集之间是相互独立的)每个训练子集训练一个模型,k个训练集共得到k个模型。对分类问题:投票;回归问题:取均值Boosting使用全部样本训练每个模型;每轮训练改变样本的权重,减小在上一轮训练正确的样本的权重,增大错误样本的权...转载 2020-04-25 17:28:34 · 724 阅读 · 0 评论 -
文本特征提取之TF-IDF
TF-IDF(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。tf-idf的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。tf-idf是如今最流行的词频加权方案之一。TF(Term Frequency,词频):表示一个给定词语t在一篇给定文档d中出现的频率。公...原创 2020-04-25 11:09:30 · 1163 阅读 · 0 评论 -
对逻辑斯蒂回归(Logistic Regression)的理解
本文转载自:https://www.jianshu.com/p/99eb7dcd0114,如有侵权,请及时联系删除logistic分布函数和密度函数,手绘大概的图像分布函数:- 密度函数:其中,μ表示位置参数,γ为形状参数。logistic分布比正太分布有更长的尾部且波峰更尖锐LR推导,基础5连问基础公式f(x) = wx + by = sigmoid(f(x))可以看作...转载 2020-04-19 11:37:07 · 2292 阅读 · 0 评论