算法
文章平均质量分 93
常用的机器学习、深度学习、统计学算法
pit_man
Dig value from big data in the Internet.
展开
-
KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结
1. KS检验Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。单样本K-S检验是用来检验一个数据的观测经验分布是否符合已知的理论分布。两样本K-S检验由于对两样本的经验分布函数的位置和形状参数的差异都敏感,所以成为比较两样本的最有用且最常用的非参数方法之一。检验统计量为:,其中Fn(x)为观察序列值,F(x)为理论...原创 2018-05-23 15:17:20 · 72512 阅读 · 6 评论 -
啤酒和尿布:一文看懂关联规则
啤酒和尿布:一文看懂关联规则一、关联规则二、Apriori算法2.1 相关概念2.2 实现步骤2.3 代码实现谈到大数据在零售业的应用,不得不提到一个经典的营销案例–啤酒和尿布的故事,有个有趣的现象——啤酒和尿布赫然摆放在一起出售,但是,这个奇怪的举措却使啤酒和尿布的销量双双增加了。这是发生在美国沃尔玛超市的真实案例,并一直为商家所津津乐道。为人们所知的是因为男人去超市买尿布时顺手买了啤酒,所以啤酒和尿布销量增加,那么从数据和算法层面分析,大家知道为什么啤酒和尿布放在一起销量会增加吗。一、关联规则站原创 2021-08-23 11:36:40 · 3053 阅读 · 0 评论 -
XGBoost使用总结
一、前言最近用到了XGBoost模型,总结一下。二、原理参考朋友的博客,个人感觉总结的很到位: http://reset.pub/2017/04/01/xgboost/三、参数解读参考:https://xgboost.readthedocs.io/en/latest/parameter.html3.1 常规参数boostergbtree 树模型做为基分类器(默认)...原创 2018-08-28 20:35:10 · 3145 阅读 · 0 评论 -
最优模型选择的准则:AIC、BIC准则
选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型中的未知参数个数最小化。似然函数值越大说明模型拟合的效果越好,但是我们不能单纯地以拟合精度来衡量模型的优劣,这样回导致模型中未知参数越来越多,模型变得越来越复杂,会造成过拟合。所以一个好的模型应该是拟合精度和未知参数个数的综合最优化配置。AIC准则AIC准则是由日本统计学家Akaike与1973年提出的,全称是最小...原创 2018-07-30 16:34:46 · 79532 阅读 · 6 评论 -
主成分分析PCA和核化线性降维kernel PCA
前言主成分分析(Principal Component Analysis)是最常用的一种降维方法。以前经常用PCA用来特征的降维,但对原理和实现方法理解的不透彻,用起来心里没底,这几天有空总结一下PCA的原理。原理在正交属性空间中的样本点,如何使用一个超平面对所有样本进行恰当的表达?这样的超平面应该有这样的性质:最近重构性:样本点到这个超平面的距离足够近(尽量少的信息损失)最大...原创 2018-08-04 11:57:54 · 7780 阅读 · 2 评论