机器学习与深度学习
文章平均质量分 95
kang0709
这个作者很懒,什么都没留下…
展开
-
深入理解LightGBM
LightGBM的改进点,分别从减少样本数量(#data)和特征数量(#features)的角度进行了优化,从减少样本数量的角度采用了基于梯度的单边采样GOSS方法,从减少特征维度的角度采用了EFB独立特征合并的方法。LightGBM基于histogram算法代替pre-sorted所构建的数据结构,利用histogram后,会有很多有用的tricks。例如histogram做差,提高了cac...原创 2020-03-07 19:38:10 · 1407 阅读 · 0 评论 -
度量方法:PR & F1 & AUC
1. Precision an Recall 计算公式:precion=TPTP+FPprecion = \frac{TP}{TP+FP}precion=TP+FPTP recall=TPTP+FNrecall = \frac{TP}{TP+FN}recall=TP+FNTP 在排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本,而是采用Top N返回结果的pr...原创 2020-03-07 11:38:53 · 1903 阅读 · 0 评论 -
FM &FFM:深入理解FM与FFM
0.引言针对类别变量进行oner-hot编码后的高维稀疏矩阵M,可以表示如下:可以看出,经过One-Hot编码之后,大部分样本数据特征是比较稀疏的, One-Hot编码的另一个特点就是导致特征空间大。例如,电影品类有550维特征,一个categorical特征转换为550维数值特征,特征空间剧增。同时通过观察大量的样本数据可以发现,某些特征经过关联之后,与label之间的相关...原创 2020-03-07 10:30:36 · 2307 阅读 · 0 评论 -
卷积网络padding操作理解
之前对卷积网络中padding操作一直存在错误理解,以为padding=SAME为输入和输出尺寸一样大,但是最近看了一些论文和资料后发现,之前的理解错误,下面是tensorflow中源码的实现,可以看出padding=VALID和padding=SAME的计算公式 ...原创 2018-07-19 16:10:18 · 4802 阅读 · 0 评论 -
机器学习:逻辑回归问题总结
https://www.cnblogs.com/ModifyRong/p/7739955.html转载 2019-07-05 14:59:06 · 394 阅读 · 0 评论 -
机器学习-CS229-notes-1:线性模型
原文连接:https://kivy-cn.github.io/Stanford-CS-229-CN/#/Markdown/cs229-notes1第一章监督学习(Supervised learning)咱们先来聊几个使用监督学习来解决问题的实例。假如咱们有一个数据集,里面的数据是俄勒冈州波特兰市的 474747 套房屋的面积和价格:居住面积(平方英尺)价格(千美元)21...转载 2019-03-22 16:00:33 · 300 阅读 · 0 评论 -
2018-kaggle-GoogleAnalytics-sliver-medal-solution
2018-kaggle-GoogleAnalytics-sliver-medal-solution比赛详情:https://www.kaggle.com/c/ga-customer-revenue-prediction代码:https://github.com/kangzhang0709/2018-kaggle-GoogleAnalytics-sliver-medal-solution这次G...原创 2019-03-17 14:31:31 · 336 阅读 · 0 评论 -
2019-kaggle-elo-top-11-solution
2019-kaggle-elo-top-11-solution比赛详情:https://www.kaggle.com/c/elo-merchant-category-recommendation代码:https://github.com/kangzhang0709This is the 11th place solution writeup. Hello, I would like to c...原创 2019-03-17 14:28:01 · 504 阅读 · 0 评论 -
深入理解XGBoost原理
原创 2018-10-01 18:05:11 · 232 阅读 · 0 评论 -
jaccard相似性度量
Jaccard /IOU Jaccard index定义:度量两个集合之间相似性,index值越大则两个集合越相似,或者说两个集合重叠区域越多;公式: Jaccard distance公式:两个集合之间相似性度量; 广义Jaccard distance...原创 2018-09-24 13:43:33 · 5551 阅读 · 0 评论 -
机器学习:回声状态网络(Echo State Networks)
回声状态网络(Echo State Networks)1. 回声状态网络结构与算法推导1.1 网络结构ESN通过随机地部署大规模系数链接的神经元构成网络隐层,一般称为”储备池”。ESN网络具有的特点如下: (1)包含数目相对较多的神经元; (2)神经元之间的连接关系随机产生; (3)神经元之间的链接具有稀疏性; 网络结构: 可以看出...原创 2018-06-29 21:08:58 · 32740 阅读 · 12 评论 -
Spark实战:基于Spark的随机森林分类算法分析
基于Spark的随机森林分类算法分析一.随机森林算法原理随机森林是由多个决策树构成的森林,算法分类结果由决策树的投票结果得到,其属于集成学习中的bagging方法。算法的主要原理如下:1)假设为一棵决策树,其中每个决策树的抽样方式为重抽样,独立抽样次,每次随机抽取个样本,就可组成个训练集数据集,且它们是相互独立同分布的。2)单棵决策树的生长原则遵循:每次从数据集的...原创 2018-06-14 21:31:51 · 8017 阅读 · 3 评论