![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析与挖掘(DM)
文章平均质量分 85
aift
不破楼兰终不还!
展开
-
AUC计算方法与Python实现代码
AUC是ROC曲线下的面积,它是机器学习用于二分类模型的评价指标,AUC反应的是模型对样本的排序能力。它的统计意义是从所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率。具体的做法就是它也是首先对prob score从大到小排序,然后令最大prob score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。所有的正负样本对中,正样本排在负样本前面的对数占总样本对数的比例,即这个概率值。原创 2020-09-27 18:33:16 · 3029 阅读 · 3 评论 -
TF-IDF代码实现(纯python)
网上有很多各种工具库自带的实现,这里记录下纯python实现的版本(网上个别人的代码不对)理论就不介绍了,网上一堆。python实现如下:# corpus:语料库# words:对所有句子分词后的结果,[[], ...]# word_count:对每个句子进行词频统计, [{}, ...]# word_dict:每一个句子的词频统计结果, {}# word:每一个词,word_id# import mathfrom collections import defaultdict cor原创 2020-08-20 15:56:09 · 3897 阅读 · 4 评论 -
深度学习中的Normalization总结(BN/LN/WN/IN/GN)
文章目录简介独立同分布(i.i.d)Internal Covariate ShiftBatch-Normalization为什么用BNBN怎么操作InferenceBatchNorm的好处简介在深度学习领域,Normalization用得很多,最近在学习各种Normalization方法的时候颇有感悟和收获,特此记录。BN(Batch Normalization)于2015年由 Google...原创 2019-08-11 18:25:00 · 6655 阅读 · 13 评论 -
Dropout深入理解
文章目录简介What is dropout?How it work?Dropout in neural networksTraining stageTest stageCode implementationSome questionsReferences简介在2012年,Alex、Hinton(大佬们呀)在其论文《ImageNet Classification with Deep Convol...原创 2019-08-14 15:58:50 · 2274 阅读 · 0 评论 -
Kaggle: SIIM-ACR Pneumothorax Segmentation 比赛记录(银牌)Top 5%
文章目录记事SIIM是19年暑假的一个比赛了,当时拿了银牌,这篇博客是赛后自己做的总结和笔记。现在分享出来。记事随着 Kaggle: SIIM-ACR Pneumothorax Segmentation 接近尾声,我感觉有必要写一篇 blog 来记录一下这两个月的比赛经历,顺便总结一下经验。刚开始的时候想着这不过是一场普通CV类的比赛而已,肝一肝就能上金牌。但现实狠狠地打了我的脸。最初三天...原创 2020-03-20 21:15:23 · 1068 阅读 · 3 评论 -
xgboost推导及常见问题
文章目录XGBoost 推导思路XGBoost 详细推导过程树的生长细节分裂一个结点寻找最佳分裂点停止生长常见问题References本篇文章仅仅是之前自己学习xgboost时的学习笔记,仅作备忘录之用。本篇文章大部分内容摘自多篇文章的精华部分,文章中及最后已注明出处,在此一并感谢各位大佬!XGBoost 推导思路图片来源及详细解释见:知乎文章。建议参考陈天齐大佬的PDF。XGBoo...原创 2020-04-07 14:30:40 · 512 阅读 · 0 评论 -
逻辑回归(LR)公式推导及代码实现
文章目录构造hypothesis构造损失函数通过“梯度下降法”求参数 θ\thetaθ 的更新式代码实现逻辑回归是用来解决分类问题用的,与线性回归不同的是,逻辑回归输出的不是具体的值,而是一个概率。除去了sigmoid函数的逻辑归回和线性回归几乎是一样的。构造hypothesis逻辑回归的HHH可以看做是一个线性回归方程的结果经过一个sigmoid函数得到的结果(为正样本的概率),逻辑回归的...原创 2020-04-07 19:35:56 · 1693 阅读 · 0 评论 -
K-means算法详解及实现
文章目录一、原理和流程原理主要的KMeans算法的原理和应用,在学习典过程中,我们要带着以下几个问题去学习以下问题摘自于https://blog.csdn.net/qq_33011855/article/details/814825111、简述一下K-means算法的原理和工作流程2、K-means中常用的到中心距离的度量有哪些?3、K-means中的k值如何选取?4、K-means...原创 2020-04-07 21:59:44 · 5786 阅读 · 0 评论 -
2020数字中国 天池——智慧海洋建设 Top1%
文章目录总结Solution这是我前段时间参加的天池比赛,最终成绩:20/3275。 下面先写总结,最后给出我的solution。总结比赛理解:各种合理有效交叉特征可以批量扩展,结合业务背景往往比较精准。造特征要批量进行(别一个个,别试图学习test),但要注意,随时考虑过拟合(即考虑线下线上,ab榜数据可能区别,避免造只适合train的特征),合理的验证:(双层十折)/林有夕利用AUC的方法验证gap。比赛总结:探索数据可视化与清洗(极大过拟合,利用了label清洗(作弊),没有考虑线上线下要原创 2020-05-18 19:27:29 · 1456 阅读 · 6 评论 -
Kaggle——ASHRAE 能源消耗预测,排名1%
这是在2019年11~12月期间,我参加的一个kaggle比赛——ASHRAE - Great Energy Predictor III最终成绩:排名前1%,22/3614。差一点点就金牌了,感觉前面的名次每前进一名都跟炼丹似的,有一定运气成分。。。。难搞哦。比赛的具体要求我就不详细介绍了,直接去比赛官网看就好。我当时自己整理了notebook,记录了当时自己的解决方案,但是不好分享,关键...原创 2020-05-05 15:36:39 · 4140 阅读 · 10 评论 -
销量预测solution
这个比赛当时是在jupyter notebook上编程的,这篇博客是之前自己整理的代码和流程记录。但是很可惜,notebook转markdown显示效果很不好,下面给出目录和代码。# coding: utf-8# # 数据分析# In[59]:# 一般一起用才会管用,否则可能会显示混乱get_ipython().run_line_magic('config', "ZMQIn...原创 2020-04-26 13:44:19 · 977 阅读 · 1 评论 -
广播法则及其手动实现
广播法则(broadcast)是科学运算中经常使用的一个技巧,它在快速执行向量化的同时不会占用额外的内存/显存。Numpy的广播法则定义如下:让所有输入数组都向其中shape最长的数组看齐,shape中不足的部分通过在前面加1补齐两个数组要么在某一个维度的长度一致,要么其中一个为1,否则不能计算当输入数组的某个维度的长度为1时,计算时沿此维度复制扩充成一样的形状PyTorch当前已经...原创 2019-06-10 22:12:59 · 337 阅读 · 0 评论