ML
ssswill
这个作者很懒,什么都没留下…
展开
-
交叉验证stratified k-fold cv与shuffle等常用cv方法
本文参考:https://scikit-learn.org/stable/modules/cross_validation.html#stratified-k-fold与《python机器学习基础教程》好,开始今天的cv学习!本文需要有一些CV的基础概念之后看会更有收获。在开始之前,我们要先明确一点:交叉验证不是一种构建可应用于新数据的模型的方法。交叉验证不会返回一个模型。在调用cv时...原创 2018-12-26 20:00:50 · 6358 阅读 · 6 评论 -
python画出AUC曲线
以load_breast_cancer数据集为例,模型细节不重要,重点是画AUC的代码。直接上代码:from sklearn.datasets import load_breast_cancerfrom sklearn import metricsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_se...原创 2019-04-16 22:07:40 · 15987 阅读 · 3 评论 -
关于binary_crossentropy与categorical_crossentropy
贴出链接:https://blog.csdn.net/Julialove102123/article/details/80236180https://www.zhihu.com/question/36307214keras中的二者真正区别:https://stackoverflow.com/questions/42081257/keras-binary-crossentropy-vs-ca...原创 2019-04-26 17:20:21 · 8596 阅读 · 0 评论 -
高斯过程回归(资料整理阶段)
1.阶段1 :https://zhuanlan.zhihu.com/p/449608512.阶段2:https://zhuanlan.zhihu.com/p/29682965原创 2019-04-15 16:07:50 · 1969 阅读 · 0 评论 -
lightbgm的gbdt模式为什么会有bagging function?
每间隔bagging_freq次迭代做一次重新采样,采样的比例则为bagging_fraction。原创 2019-04-29 14:41:30 · 706 阅读 · 0 评论 -
ligtgbm的min_sum_hessian_in_leaf参数与xgboost的min_child_weight
首先说明。二者是一回事。(应该吧)。参见lgbm的官方文档:之后参见:https://stackoverflow.com/questions/45248001/what-is-the-meaning-of-min-sum-hessian-in-leaf-in-lightgbm也有人提出了疑问。然后类似的疑问:解答在:https://stats.stackexchange.com/...原创 2019-04-29 16:14:03 · 1701 阅读 · 1 评论 -
lightgbm可视化后的threshold和leaf_value是什么意思?
如上图,是来自一个lgb的一颗树。上面的threshold和leaf_value是什么意思呢?threshold即阈值,即根据某个feature分裂的阈值。leaf_value即未经sigmoid规格化的预测值,所以会有负值。但是经过sigmoid函数后都会被规格化0-1之间。参考:https://github.com/Microsoft/LightGBM/issues/1360中文...原创 2019-05-05 15:21:26 · 3346 阅读 · 0 评论 -
FM与FFM
请参见:https://blog.csdn.net/ddydavie/article/details/82667890原创 2019-05-24 22:44:21 · 563 阅读 · 0 评论 -
关于target encoding与count encoding
先整理一下链接,之后会看。简介入门:https://zhuanlan.zhihu.com/p/40231966一个各种category 变量编码的库:https://github.com/scikit-learn-contrib/categorical-encoding说明文档:http://contrib.scikit-learn.org/categorical-encoding/t...原创 2019-05-16 20:23:53 · 8340 阅读 · 0 评论 -
关于调参
大牛们云集分享思路:https://www.kaggle.com/c/santander-customer-transaction-prediction/discussion/89320#latest-524314原创 2019-05-17 11:24:32 · 297 阅读 · 0 评论 -
用shap来选择特征
https://github.com/slundberg/shap原创 2019-05-17 12:09:38 · 5476 阅读 · 0 评论 -
sklearn中同一个模型fit多次不同数据会如何?and增量学习
忙里偷闲~记录一些笔记。你多次fit,只会覆盖。并不会记住以前fit的数据。来自:https://stackoverflow.com/questions/49841324/what-does-calling-fit-multiple-times-on-the-same-model-do可以采用:partial_fit具体请见:https://www.cnblogs.com/zle1...原创 2019-05-29 18:56:58 · 6637 阅读 · 1 评论 -
关于pickle的load,loads等
基础知识:python自带的file函数只能存储和读取字符串格式的数据.pickle可以存储和读取成其他格式比如list dict的数据,来自:https://www.zhihu.com/question/38355589如需更详细关于load/dump,loads/dumps参见:https://blog.csdn.net/coffee_cream/article/details...原创 2019-05-29 19:01:26 · 2391 阅读 · 0 评论 -
关于HashVectorizer
写在前面:HashVectorizer与tfidf类似,都是讲文本向量化的表示方法,但它节省内存,也更快。当数据集较大时,可以作为tfidf的替代。from:https://www.cnblogs.com/pinard/p/6688348.html说明2:来自:https://stackoverflow.com/questions/30024122/what-is-the-differe...原创 2019-06-03 18:13:58 · 1685 阅读 · 0 评论 -
关于.jl.z格式文件的保存与读写(python大文件处理)
压缩存储能节省磁盘空间,但文件读写会耗费更多时间,属于用时间换空间的思路。joblib提供了直接存取numpy矩阵数据的接口。example1import joblib as jlimport numpy as npmatrix = np.zeros((10000,10000))jl.dump(matrix, 'x.jl')#非压缩存储,耗时1.34s,存储763Mjl.dump...原创 2019-04-11 10:09:34 · 1959 阅读 · 0 评论 -
关于梯度下降与Momentum通俗易懂的解释
sgd与momentum都是常见的梯度优化方法。本文想从代码方面对这两种方法进行总结。关于理论。建议参考:https://www.cnblogs.com/jungel24/p/5682612.html这篇博文写的很好。很形象。本文也是建立在它的基础上写的,同时代码参考:https://github.com/hsmyy/zhihuzhuanlan原创 2019-01-30 09:54:11 · 3338 阅读 · 3 评论 -
贝叶斯优化调参实战(随机森林,lgbm波士顿房价)
本文名字叫做贝叶斯优化实战~~就说明我不会在这里讲它的理论知识。因为我还没看懂。。。不过用起来是真的舒服,真是好用的不行呢~开始本文之前,我先说一下我目前用到的调参的手段。1.网格搜索与随机搜索:图来自:https://www.cnblogs.com/marsggbo/p/9866764.html我们都知道神经网络训练是由许多超参数决定的,例如网络深度,学习率,卷积核大小等等。所以为了找...原创 2019-01-21 13:04:43 · 16332 阅读 · 14 评论 -
贝叶斯优化调参示例代码 (xgboost,lgbm)
先贴出教程链接。Bayesian Optimization of XGBoost Parametershttps://www.kaggle.com/tilii7/bayesian-optimization-of-xgboost-parameters/notebook衍生出来的:lgbm调参https://www.kaggle.com/fabiendaniel/hyperparameter-...原创 2018-12-27 10:50:30 · 12278 阅读 · 1 评论 -
决策树笔记汇总
网上关于决策树的博文已经有很多了。我挑选了几篇比较好理解的几篇,作为以后查阅备忘。同时,决策树刚开始学习时,概念比较多,建议博文结合西瓜书一起看,因为有些公式这样写不太理解,但是别的地方换一种写法,就会容易理解很多。信息熵、信息增益(ID3),信息增益比(C4.5)。参阅下面两篇博文:https://blog.csdn.net/familyshizhouna/article/details/7...原创 2018-12-24 15:21:06 · 250 阅读 · 0 评论 -
lgbm参数分析及回归超参数寻找
参考:lgbm的github:https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst代码来源参见我另一篇博客:https://blog.csdn.net/ssswill/article/details/85217702网格搜索寻找超参数:from sklearn.model_selection impor...原创 2018-12-24 17:00:40 · 24487 阅读 · 4 评论 -
一文读懂PCA
PCA文章已经有很多了。我觉得真的没有我再写一篇的必要了,这里给两个链接,我认为都是很好的,特别是第一篇!真的讲得太好了。浅显易懂,如有疑问请留言我在本博客更新手推的解释。第一篇:http://blog.codinglabs.org/articles/pca-tutorial.html分析:很多网上的博客都是来源的这一篇大神之作。这里贴出原地址,需要者请自行前往。如还是有疑惑请留言。第二篇...原创 2019-01-17 13:25:00 · 353 阅读 · 0 评论 -
机器学习编程sklearn常用语句
想随时随地写出一段机器学习代码吗?想不百度谷歌就完成对一个csv数据表格的处理吗?一直感觉理论也不太会,就算知道一点实际上手一句代码也写不出来,还是要靠搜教程复制粘贴度日吗?一直知道数据拿到手要清洗,处理,分割。那你可以秒写出如何分割吗?关于ML。很多人说不需要掌握数学知识你也可以学得很好,对此我不反驳,但我也难以同意。同时这也不是本文要讨论的重点。本文就假设我们数学基础小学毕业,这样能...原创 2019-01-11 15:14:59 · 1202 阅读 · 0 评论 -
关于sklearn的网格搜索GridSearchCV寻找最优超参数
关于sklearn.model_selection.GridSearchCV,为什么值得写一篇博客:其实网格搜索现在用的并不多,但是作为基础知识我觉得还是有掌握的必要的。这篇博客主要借鉴sklearn官网教程进行讲解:官网教程链接#执行程序前请pip install mglearnimport mglearnimport pylab as pltmglearn.plots.plot...原创 2019-01-12 19:59:17 · 6668 阅读 · 0 评论 -
线性回归RidgeCV,LassoCV及回归权重重要性可视化
本文参考skearn官网教程,链接如下:https://scikit-learn.org/stable/modules/linear_model.html#lasso我们都知道:ridge是l2正则化的线性回归,lasso则是带l1正则化的线性回归。进一步说,他们都同样的比线性回归多一个超参数需要调,alpha。所以有了RidgeCV,LassoCV的说法。也就是说我们必须找到合理的alpha...原创 2019-01-13 11:22:30 · 17202 阅读 · 2 评论 -
ligthgbm分类与回归实例展示
本文仅做摘抄记录,展示一些lgbm用作分类与回归的代码,以供学习记忆与备用。lgbm的github:https://github.com/Microsoft/LightGBM/blob/master/docs/Parameters.rst参数解释:https://blog.csdn.net/ssswill/article/details/852350741.回归1.1回归1代码来源:...原创 2019-01-18 14:47:53 · 16356 阅读 · 4 评论 -
jupyter快捷键使用指南
本文参考:https://www.jianshu.com/p/ccf71af2d0501、模式说明:Jupyter Notebook包含两种模式。一种是命令模式,按ESC键进入,这时边框是蓝色的;另一种是编辑模式,按Enter键进入,边框是绿色的。2、常用快捷键2.1命令模式下:shift + enter : 运行当前单元后,选中下一单元ctrl + enter :只运行当前单元...原创 2019-01-18 18:40:55 · 694 阅读 · 0 评论 -
Adaboost笔记汇总
1.参见:https://blog.csdn.net/px_528/article/details/729639772.https://www.cnblogs.com/davidwang456/articles/8927029.html原创 2019-01-24 09:51:58 · 133 阅读 · 0 评论 -
机器学习可视化matplotlib,seaborn常用编程语句
关于sklearn常用编程语句:https://blog.csdn.net/ssswill/article/details/86251339目前数据处理中的可视化是十分重要的,其中主要会用到matplotlib与seaborn两个库。本文主要记录一些常用画图语句,要求牢记背下来。0.关于pandas的df,series直接作图的三种方法参考pandas官网文档:http://pandas....原创 2019-01-14 12:53:00 · 752 阅读 · 0 评论 -
朴素贝叶斯算法与应用实例
本文为转载博客,转自:http://www.cnblogs.com/marc01in/p/4775440.html引和师弟师妹聊天时经常提及,若有志于从事数据挖掘、机器学习方面的工作,在大学阶段就要把基础知识都带上。 机器学习在大数据浪潮中逐渐展示她的魅力,其实《概率论》、《微积分》、《线性代数》、《运筹学》、《信息论》等几门课程算是前置课程,当然要转化为工程应用的话,编程技能也是...转载 2019-01-14 13:24:37 · 10168 阅读 · 3 评论 -
机器学习损失函数讲解
写在前面:一定要分清楚损失函数与误差函数!损失函数:是指训练时候预测值与真实值的误差函数,我们应用凸优化,SGD等来使它减小,得到一些模型参数!误差函数:是指模型训练完后,用测试集数据喂进去模型得到的预测值与真实值的误差,是我们的评价手段。由于误差函数一般很好理解,例如sklearn的metrics就有很多常用误差函数,我们就没必要研究了。下面来看看那些损失函数loss function。...原创 2019-01-19 12:10:39 · 810 阅读 · 0 评论 -
keras用auc做metrics以及早停
import tensorflow as tffrom sklearn.metrics import roc_auc_scoredef auroc(y_true, y_pred): return tf.py_func(roc_auc_score, (y_true, y_pred), tf.double)# Build Model...model.compile(loss='c...原创 2019-07-11 20:16:10 · 7405 阅读 · 2 评论