机器学习(ML)
文章平均质量分 90
aift
不破楼兰终不还!
展开
-
AUC计算方法与Python实现代码
AUC是ROC曲线下的面积,它是机器学习用于二分类模型的评价指标,AUC反应的是模型对样本的排序能力。它的统计意义是从所有正样本随机抽取一个正样本,从所有负样本随机抽取一个负样本,当前score使得正样本排在负样本前面的概率。具体的做法就是它也是首先对prob score从大到小排序,然后令最大prob score对应的sample 的rank为n,第二大score对应sample的rank为n-1,以此类推。所有的正负样本对中,正样本排在负样本前面的对数占总样本对数的比例,即这个概率值。原创 2020-09-27 18:33:16 · 3158 阅读 · 3 评论 -
TF-IDF代码实现(纯python)
网上有很多各种工具库自带的实现,这里记录下纯python实现的版本(网上个别人的代码不对)理论就不介绍了,网上一堆。python实现如下:# corpus:语料库# words:对所有句子分词后的结果,[[], ...]# word_count:对每个句子进行词频统计, [{}, ...]# word_dict:每一个句子的词频统计结果, {}# word:每一个词,word_id# import mathfrom collections import defaultdict cor原创 2020-08-20 15:56:09 · 3954 阅读 · 4 评论 -
2020数字中国 天池——智慧海洋建设 Top1%
文章目录总结Solution这是我前段时间参加的天池比赛,最终成绩:20/3275。 下面先写总结,最后给出我的solution。总结比赛理解:各种合理有效交叉特征可以批量扩展,结合业务背景往往比较精准。造特征要批量进行(别一个个,别试图学习test),但要注意,随时考虑过拟合(即考虑线下线上,ab榜数据可能区别,避免造只适合train的特征),合理的验证:(双层十折)/林有夕利用AUC的方法验证gap。比赛总结:探索数据可视化与清洗(极大过拟合,利用了label清洗(作弊),没有考虑线上线下要原创 2020-05-18 19:27:29 · 1500 阅读 · 6 评论 -
Kaggle——ASHRAE 能源消耗预测,排名1%
这是在2019年11~12月期间,我参加的一个kaggle比赛——ASHRAE - Great Energy Predictor III最终成绩:排名前1%,22/3614。差一点点就金牌了,感觉前面的名次每前进一名都跟炼丹似的,有一定运气成分。。。。难搞哦。比赛的具体要求我就不详细介绍了,直接去比赛官网看就好。我当时自己整理了notebook,记录了当时自己的解决方案,但是不好分享,关键...原创 2020-05-05 15:36:39 · 4275 阅读 · 10 评论 -
销量预测solution
这个比赛当时是在jupyter notebook上编程的,这篇博客是之前自己整理的代码和流程记录。但是很可惜,notebook转markdown显示效果很不好,下面给出目录和代码。# coding: utf-8# # 数据分析# In[59]:# 一般一起用才会管用,否则可能会显示混乱get_ipython().run_line_magic('config', "ZMQIn...原创 2020-04-26 13:44:19 · 997 阅读 · 1 评论 -
K-means算法详解及实现
文章目录一、原理和流程原理主要的KMeans算法的原理和应用,在学习典过程中,我们要带着以下几个问题去学习以下问题摘自于https://blog.csdn.net/qq_33011855/article/details/814825111、简述一下K-means算法的原理和工作流程2、K-means中常用的到中心距离的度量有哪些?3、K-means中的k值如何选取?4、K-means...原创 2020-04-07 21:59:44 · 6071 阅读 · 0 评论 -
逻辑回归(LR)公式推导及代码实现
文章目录构造hypothesis构造损失函数通过“梯度下降法”求参数 θ\thetaθ 的更新式代码实现逻辑回归是用来解决分类问题用的,与线性回归不同的是,逻辑回归输出的不是具体的值,而是一个概率。除去了sigmoid函数的逻辑归回和线性回归几乎是一样的。构造hypothesis逻辑回归的HHH可以看做是一个线性回归方程的结果经过一个sigmoid函数得到的结果(为正样本的概率),逻辑回归的...原创 2020-04-07 19:35:56 · 1836 阅读 · 0 评论 -
xgboost推导及常见问题
文章目录XGBoost 推导思路XGBoost 详细推导过程树的生长细节分裂一个结点寻找最佳分裂点停止生长常见问题References本篇文章仅仅是之前自己学习xgboost时的学习笔记,仅作备忘录之用。本篇文章大部分内容摘自多篇文章的精华部分,文章中及最后已注明出处,在此一并感谢各位大佬!XGBoost 推导思路图片来源及详细解释见:知乎文章。建议参考陈天齐大佬的PDF。XGBoo...原创 2020-04-07 14:30:40 · 533 阅读 · 0 评论 -
YOLO K-means获取anchors大小代码详解
预备知识:应该了解yolo的基本操作,详见YOLO v1,YOLO v2,YOLO v3。首先应该了解yolo标签文件的格式,其格式为:图片的位置 框的4个坐标和1个类别ID (xmin,ymin,xmax,ymax,id) …。示例如下:/home/aift/CV/detect/yolo3-keras-master/VOCdevkit/VOC2007/JPEGImages/000012.jp...原创 2019-08-25 11:56:52 · 912 阅读 · 0 评论 -
深度学习中的Normalization总结(BN/LN/WN/IN/GN)
文章目录简介独立同分布(i.i.d)Internal Covariate ShiftBatch-Normalization为什么用BNBN怎么操作InferenceBatchNorm的好处简介在深度学习领域,Normalization用得很多,最近在学习各种Normalization方法的时候颇有感悟和收获,特此记录。BN(Batch Normalization)于2015年由 Google...原创 2019-08-11 18:25:00 · 6933 阅读 · 13 评论 -
Dropout深入理解
文章目录简介What is dropout?How it work?Dropout in neural networksTraining stageTest stageCode implementationSome questionsReferences简介在2012年,Alex、Hinton(大佬们呀)在其论文《ImageNet Classification with Deep Convol...原创 2019-08-14 15:58:50 · 2347 阅读 · 0 评论 -
conda环境的复制(生成.yaml文件)和pip环境的复制(生成requirements.txt)
由于最近conda的清华源被“墙”,conda install在我大天朝“暂时”基本处于用不了的状态,推荐用下面的“pip环境的转移和复制”方法。pip环境的转移和复制python项目中一般都包含一个 requirements.txt 文件,用于记录所有依赖包及其精确的版本号。以便新环境的部署。下面为在linux环境下“pip自动生成和安装requirements.txt”的步骤。激活相...原创 2019-06-15 22:18:58 · 54689 阅读 · 10 评论 -
pip自动生成和安装requirements.txt
python项目中一般都包含一个 requirements.txt 文件,用于记录所有依赖包及其精确的版本号。以便新环境的部署。下面为在linux环境下“pip自动生成和安装requirements.txt”的步骤。激活相应虚拟环境conda env list # 查看所有的conda虚拟环境source activate env_name生成requirements.txt...原创 2019-06-15 22:01:15 · 664 阅读 · 0 评论 -
pytorch中交叉熵损失(nn.CrossEntropyLoss())的计算过程
公式首先需要了解CrossEntropyLoss的计算过程,交叉熵的函数是这样的: 其中,其中yi表示真实的分类结果。这里只给出公式,关于CrossEntropyLoss的其他详细细节请参照其他博文。测试代码(一维)import torchimport torch.nn as nnimport mathcriterion = nn.CrossEntropyLos...原创 2019-06-15 11:54:17 · 37747 阅读 · 26 评论 -
“反向传播算法”过程及公式推导(超直观好懂的Backpropagation)
自己学习机器学习,深度学习也有好长一段时间了,一直以来都想写点有价值的技术博客,以达到技术分享及记录自己成长的目的,奈何之前一直拖着,近来算是醒悟,打算以后不定时写一写博客,也算是作为自己不断学习,不断进步的记录。既然是写博客,希望自己的博客以后要做到“准确、生动、简洁、易懂”的水平,做到对自己、对读者负责,希望大家多交流,共同进步!言归正传,想起当时自己刚入门深度学习的时候,当时对神经网络的“...原创 2019-05-15 11:37:33 · 193675 阅读 · 290 评论