数据比赛资料(杂合)

自动调超参项目源码  

https://github.com/maxpumperla/hyperas


spark ml 算法原理剖析以及具体的源码实现分析


大数据架构和模式(一)大数据分类和架构简介

贝叶斯平滑方法及其代码实现


Python有哪些好用的语言翻译方法


Kaggle机器学习之模型融合(stacking)心得


最好的九张机器学习&深度学习代码速查表

机器之心 - 工程师必备,最好的九张机器学习&深度学习代码速查表(分享自知乎网)

https://zhuanlan.zhihu.com/p/27202488?utm_source=qq&utm_medium=social


xgboost之spark上运行-scala接口


商用深度学习分布式环境

https://deeplearning4j.org/cn/overview
http://nd4j.org/cn/backend.html


stacking 的资料

https://www.kaggle.com/c/two-sigma-connect-rental-listing-inquiries/discussion/31765



IJCAI-17大神分享之神雕侠侣的优胜秘籍!代码地址


小水大神分享:神经网络方面的东西



书籍搜索网址(英文的)


数据挖掘应用案例:RFM模型分析与客户细分


苍老师分享,深度学习,由浅入深论文

搜deep learning papers reading roadmap一溜串的论文由浅入深。


【特征工程】特征选择及mRMR算法解析


萤火虫分享:在SPARK上将谷歌的深度学习库进行尺度变换


一个流行的分布式数据库,
 

基于Spark自动扩展scikit-learn(spark-sklearn)

http://blog.csdn.net/sunbow0/article/details/50848719


https://github.com/xiaozhouwang这个是真大神

GBDT基本理论及利用GBDT组合特征的具体方法(收集的资料)


这里有一个优化cv的方法FCV   简直吊炸天


数据挖掘(七)---异常检测

数据挖掘(七)---异常检测 
http://blog.163.com/zhoulili1987619@126/blog/static/353082012015211114642546/
如果单纯的统计法的话 3神格吗 ZSCORE法 当然你可以基于聚类算法来处理 我记得sklearn 里面有一个IsolationForest


【干货】Kaggle 数据挖掘比赛经

http://url.cn/48UoPHS
【干货】Kaggle 数据挖掘比赛经验分享


新发现的小工具

https://github.com/jundongl/scikit-feature 
https://github.com/reiinakano/scikit-plot
http://featureselection.asu.edu/algorithms.php


Spark机器学习库(MLlib)官方指南手册中文版


GBDT完全调参指南

https://www.analyticsvidhya.com/blog/2016/02/complete-guide-parameter-tuning-gradient-boosting-gbm-python/


学习 ensemble learning 要如何开始呢?

【学习 ensemble learning 要如何开始呢?】城东:引自我的博文 2… 

https://www.zhihu.com/question/29036379/answer/111637662?utm_source=qq&utm_medium=social (分享自知乎网)


【一文读懂】机器学习最新主战场迁移学习,从原理、方法到应用

https://zhuanlan.zhihu.com/p/25979886?utm_medium=social&utm_source=qq


sklearn导出树

http://stackoverflow.com/questions/20224526/how-to-extract-the-decision-rules-from-scikit-learn-decision-tree


sklearn 输出树模型

http://scikit-learn.org/stable/modules/generated/sklearn.tree.export_graphviz.html#sklearn.tree.export_graphviz


从稀疏表示到低秩表示(四)


超级碗的肺癌第九名开源的解决方案


使用Apriori算法和FP-growth算法进行关联分析


评分卡模型剖析之一(woe、IV、ROC、信息熵)

http://blog.csdn.net/goodhuajun/article/details/39582761py里面重要性是这个
重要性=∑(errOOB2-errOOB1)/Ntree
r里面默认的是gini


9行Python代码搭建神经网络


xgboost详细介绍最新博文


prophet 时序预测神奇

BLOG:http://blog.csdn.net/sinat_26917383/article/details/57419862 

官网网址:https://facebookincubator.github.io/prophet/
github网址:https://github.com/facebookincubator/prophet
论文:《Forecasting at Scale // Sean J.Taylor and Benjamin Letham》
案例数据下载:http://download.csdn.net/detail/sinat_26917383/9764537


TF大会完整视频

链接: https://pan.baidu.com/s/1dE6qjsd 密码: qya4 TF大会的完整视频,总时长8个多小时,分为18段,有18位大神讲不同的方面


关于样本采样

http://m.blog.csdn.net/article/details?id=52304670


cs231n - assignment1 - softmax 梯度推导


时间序列ARIMA模型详解:python实现店铺一周销售量预测


西瓜书概念整理(chapter 1-2)熟悉机器学习术语


剑宗的“独孤九剑”(Tensorflow函数)


清华大学微积分教程,推荐看看

链接:http://pan.baidu.com/s/1i5lyRtV 密码:ow6t
链接:http://pan.baidu.com/s/1pKUrBJl 密码:jtaw


Python中利用LSTM模型进行时间序列预测分析


spark机器学习算法研究源码

https://github.com/endymecy/spark-ml-source-analysis


PCA的数学之美

http://mp.weixin.qq.com/s/6xsXjUEUm8dB5y6-dInT_w


PrimalEstimatedsub-GrAdientSOlverforsvm


2016 CCF大数据与计算智能大赛的开源资料整理


今天我彻底理解了如何从MLE和MAP推到linear regression,ri

今天我彻底理解了如何从MLE和MAP推到linear regression,ridge regression和lasso,

https://www.zhihu.com/question/20447622


理解 LSTM 网络

http://m.open-open.com/m/lib/view/1440843534638.html


GAN(Generative Adversarial Nets)研究进展


statsmodels.stats.outliers_influence.var

statsmodels.stats.outliers_influence.variance_inflation_factor 可以检测方差膨胀因子 进行多重共线性的检测
LASSO,非常擅长处理多重共线性


wepon o2o 第一名代码开源

强烈推荐天池选手们,关注一下 wepon的github,里面有好几次比赛的代码,包括这次 O2O比赛的全部代码,他们是这次 O2O比赛的一等奖。 大家别忘记点 start . 同时感谢wepon,天音和charles的贡献! https://github.com/wepe/O2O-Coupon-Usage-Forecast


不平衡数据分类算法介绍与比较

http://m.blog.csdn.net/article/details?id=52304670


为什么在实际的 kaggle 比赛中 gbdt 和 random forest


用python参加Kaggle的些许经验总结


如何成为一名数据科学家

http://www.zhihu.com/question/21592677我自己粗浅的理解为需要以下几个方面:
1. 业务知识
2. 数理统计和数据分析
3. 计算机相关知识
3.1 数据处理与收集(ETL?)
3.2 机器学习和数据挖掘
这几方面完全是自己的一个猜测,恳请大牛们不惜赐教!
http://chuansong.me/n/511792241648
特征工程:数据科学家的秘密武器!


一篇文章,带你明白什么是过拟合,欠拟合以及交叉验证


adaboost xgboost gbdt 三个boosting方法整理


用 Python 实现 各种排序算法


把这些题刷完,任何面试的算法题都很easy

http://hihocoder.com/problemset
把这些题刷完,任何面试的算法题都很easy的拿下


阿里音乐代码参考

https://github.com/implus/alimusic


分享个FTRL的轮子  可以直接调用


Ensemble Learning 之 Boosting 与 Adaboost


风险狗的数据分析之路


python中日期和时间格式化输出的方法小结


大数据/数据挖掘/推荐系统/机器学习相关资源


bryan大神的宝贵经验

http://bbs.pkbigdata.com//static/348_detail.html


阿里音乐流行趋势预测大赛 #13解决方案


统计师的Python日记【第七天:数据清洗(1)】

http://sanwen8.cn/p/1f7STnT.html
1. 删除重复

2. 异常值监测

3. 替换

4. 数据映射

5. 数值变量类型化

6. 创建哑变量


机器学习中的规则化范数(L0, L1, L2, 核范数)


ROC和AUC介绍以及如何计算AUC

https://m.douban.com/note/284051363
ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见[这里]


推荐算法

http://geek.csdn.net/news/detail/91818


利用python对新浪微博用户标签进行分词并推荐相关用户


[Machine Learning & Algorithm]决策树与迭代决策树


机器学习笔记:朴素贝叶斯方法(Naive Bayes)原理和实现


支持向量机(SVM)的详细推导过程及注解(一)


MapReduce初级案例

"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。
http://www.open-open.com/lib/view/open1387965082078.html


最小二乘、极大似然、梯度下降有何区别?


一步一图一代码,一定要让你真正彻底明白红黑树

http://blog.csdn.net/chenhuajie123/article/details/11951777ok,首先,以下几点,你现在应该是要清楚明白了的:
I、红黑树的五个性质:
1)每个结点要么是红的,要么是黑的。
2)根结点是黑的。
3)每个叶结点,即空结点(NIL)是黑的。
4)如果一个结点是红的,那么它的俩个儿子都是黑的。
5)对每个结点,从该结点到其子孙结点的所有路径上包含相同数目的黑结点。


knn 和 k均值这种算距离的  特征要不要标准化

武传营-福大-硕
数据量纲差太多,一般是需要的
零 
我感觉是需要的 要不然都不在一个量级啊 10000的距离和10的距离怎么比较。。

10的距离就被淹没了
风轻云淡 
归一化应该是为了在同一量级上进行计算
Nathaniel.
像这种 特征调参是不是只要把特征值乘一个常数 就行了

风轻云淡
归一化之后要进行反归一化还原数据
Silence为了防止不同量级的数据产生的偏差
Silence 
比如你工资和年龄这两个的话欧氏距离明显差很多
http://blog.csdn.net/czp11210/article/details/51161501


炼数成金--大数据的统计学基础

http://pan.baidu.com/share/link?uk=2970711085&shareid=1547082001
本群国王推荐 两本书 矩阵分析 和 the matrix cookbook


数学之美番外篇:平凡而又神奇的贝叶斯方法

http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
具体还可以参考 PRML 1.2概率论 
我们需要做两件事情:1. 算出各种不同猜测的可能性大小。2. 算出最靠谱的猜测是什么。第一个就是计算特定猜测的后验概率,对于连续的猜测空间则是计算猜测的概率密度函数。第二个则是所谓的模型比较,模型比较如果不考虑先验概率的话就是最大似然方法。P(B|A) = P(A|B) * P(B) / [P(A|B) * P(B) + P(A|~B) * P(~B) ]

收缩起来就是: P(B|A) = P(AB) / P(A)
其实这个就等于:
P(B|A) * P(A) = P(AB)
难怪拉普拉斯说概率论只是把常识用数学公式表达了出来。

然而,后面我们会逐渐发现,看似这么平凡的贝叶斯公式,背后却隐含着非常深刻的原理。







  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值