weixin_41872340-CSDN博客

原创比赛trick讲解

1 目标检测通用trick????warmup：先用小学习率训练几个epoch，当稳定后再调大，防止学习一开始就陷入局部极小????：将原本为0或1的标签设置为0.99或其他数，使模型避免过于自信????:soft nms，可以保留重叠区域的框????：iou不能反映两框中心点位置关系2.Baseline中的trick????：以不同的比例混合两张图，并能模拟遮挡的效果????：anchor是基准框，每次拟合时，都照基准框的方向进行拟合smoothL1：计算四个点的损

2020-07-16 16:49:54 601 1

原创 Kaggle_eff中的知识点

1.eval()eval()2.np.fromstring()fromstring()如：s = ‘1,2,3,4,5’ss = np.fromstring(s,sep=’,’)ss = [1, 2, 3, 4, 5]3.from sklearn.model_selection import StratifiedKFold按照标签的分布进行训练集和验证集的划分4.groupby()添加链接描述按XX进行分组5.np.unique()6.loc与ilochttps://www.c

2020-07-10 21:56:51 129

原创自动调参工具-nni

使用贝叶斯优化方法中的TPE2.nni使用方法step1：定制搜索空间：给超参一个大概的范围step2 : 修改训练代码，让nii产生动态的超参运用于训练中step3 ：调参器算法等策略配置3、nni结合baseline...

2020-07-08 21:45:52 626

原创 kaggle注意事项

多找工具去复用！打比赛不是造轮子！3 赛题介绍选算法的方法：选新的训练集包括七八个国家，不同环境的小麦测试集还有谷歌云盘中看不见的数据集存在错误的标记错误的框对泛化性可能存在帮助，所以可以决定删或者不删异常框需要极强的泛化能力数据增强也可以做到颜色不同，所以易于解决传统目标检测参数:Map包括：精确度：是不是小麦头召回率：是不是所有小麦头都检测了D5版本:精度较高，参数较好YOLOV5:精度和D5相仿，速度更快cutout：可以模拟遮挡效果，还.

2020-06-30 21:28:36 246 1

原创西瓜书16-强化学习

16.1 任务与奖赏我们考虑如何种西瓜，经过浇水除草施肥，经过一段时间后才能收获西瓜，通常要收获后，我们才知道种出的瓜好不好，在种瓜过程中我们执行某个操作（如施肥）时，并不能立即获得最终奖赏（好瓜），仅能得到一个当前反馈（瓜苗更加健壮），我们需要多次种瓜，在种瓜过程中不断摸索，才能总结出较好的种瓜策略，这个过程抽象出来，就是“强化学习”强化学习任务通常用马尔可夫决策过程来描述：机器处于环境E...

2020-06-28 15:23:21 145

原创西瓜书15 规则学习

15.1 基本概念机器学习中的规则通常是指语义明确，能描述数据分布所隐含的客观规律或领域概念，可写成“若…则…”形式的逻辑规则，“规则学习”是从训练数据中学习出一组能用于对未见示例进行判别的规则。形式化地看，一条规则形如：其中逻辑符号“←”右边部分称为“规则体”，表示该条规律的==“前提”==，左边部分称为“规则头”，表示该条规则的结果，规则体是由逻辑文字fk组成的合取式，其中合取符号“^...

2020-06-28 15:23:10 221

原创西瓜书14-概率图模型

chapter 14 概率图模型14.1 隐马尔可夫模型机器学习最重要的任务，是根据一些已观察到的证据（例如训练样本）来对感兴趣的未知变量（例如类别标记）进行估计和推测，概率模型提供了一种描述框架，将学习任务归结于计算变量的概率分布，在概率模型中，利用已知变量推测未知变量的分布称为“推断”，其核心是如何基于可观测变量推测出未知变量的条件分布。具体来说，假定所关心的变量集合为Y，可观测变量集合...

2020-06-28 15:22:58 203

原创西瓜书13-半监督学习

chapter13 半监督学习13.1 未标记样本能不能将未标记的样本也用上呢？我们有训练样本｛(x1,y1),(x2,y2),…,(xl,yl)｝，这l个样本的类别标记已知，称为“有标记样本”，此外，还有｛xl+1,…,xl+u｝这u个样本的标记未知，称为“未标记样本”。若直接使用传统监督学习技术，则仅有Dl能用于构建模型，Du所包含的信息被浪费了。另一方面，若Dl较小，则由于训练样本不足...

2020-06-28 15:22:45 149

原创西瓜书12-计算学习理论

chapter 12 计算学习理论计算学习理论研究的目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。给定样例集D=｛(x1,y1),(x2,y2),…,(xm,ym)｝,本章主要讨论二分类问题，Y=｛-1,+1｝，假设所有样本服从一个隐含未知的分布D’，D中所有样本都是独立地从这个分布上采样而得，即独立同分布样本。令h为从x到y的映射，其泛化误差为：经验...

2020-06-28 15:22:31 126

原创西瓜书11-特征选择与稀疏学习

chapter 11 特征选择与稀疏学习11.1 子集搜索与评价给定属性集，其中有些属性可能很关键，而另一些属性可能没什么用，我们将属性称为“特征”，对当前学习任务有用的属性称为“相关特征”，没什么用的称为“无关特征”，从给定的特征集合中选择出相关特征子集的过程，称为“特征选择”。特征选择是重要的数据预处理过程，在现实机器学习任务中，获得数据后通常先进行特征选择，此后再训练学习器，那么为何要...

2020-06-28 15:22:20 209

原创西瓜书学习笔记-10 降维与度量学习

chapter 10 降维与度量学习10.1 k近邻学习k近邻（k nearest neighbor，knn）学习是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最接近的k个训练样本，然后基于这k个邻居的信息对该测试样本进行预测。对于分类任务，还是采用“投票法”决定测试样本的标记。在回归任务中，使用的是“平均法”，即将这k个邻居的平均值作为预测结...

2020-06-28 15:22:09 401

原创西瓜书学习笔记9-聚类

chapter 9 聚类9.1聚类任务在无监督学习中，训练样本的标记未知，目标是通过无标记训练样本的学习来揭示数据的内在性质及规律，为进一步的数据分析提供基础，此类学习中应用最广，研究最多的是“聚类”。聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个簇，通过这样的划分，每个簇可能对应一些潜在的概念（类别），如“浅色瓜”，“深色瓜”，“有籽瓜”等。这些概念对聚类算法而言...

2020-06-28 15:21:53 749

原创西瓜书学习笔记8-集成学习

chapter 8 集成学习8.1 个体与集成集成学习通过构建并结合多个学习器来完成学习任务，也被称为多分类器系统。基本策略是先产生一组“个体学习器”，再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生，例如决策树，BP等。此时集成中只包含同种类型的个体学习器。例如“决策树集成”中都是决策树。这样的集成是“同质”的。同质集成中的个体学习器称为“基学习器”，相应的...

2020-06-28 15:21:39 527

原创西瓜书学习笔记7-贝叶斯分类器

chapter 7 贝叶斯分类器7.1 贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法，对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于概率和误判损失来选择最优的类别标记，以多分类为例解释原理：假设分类问题有N种可能的类别，λij是将真实标记为j的样本误分类为i所产生的损失，基于==后验概率P（ci丨x）==可获得将样本x分类为ci所产生的期望损失，即在样...

2020-06-28 15:21:24 625

原创西瓜书学习笔记6-SVM

chapter 6 支持向量机6.1 间隔与支持向量分类学习的基本思想就是在样本空间中找到一个划分超平面，将不同类别的样本分开。这个划分超平面所产生的分类结果是最鲁棒的，对未见示例的泛化能力最强。w为法向量，决定了超平面的方向，b为位移项，决定了超平面与原点的距离。样本空间中任一点到超平面的距离为：注意：使等号成立，等号成立时最近样本离超平面的距离就是1/|w|间隔：两个异类支...

2020-06-28 15:21:08 158

原创西瓜书笔记第五章-神经网络

chapter 55.1 神经元模型定义：神经网络是由具有适应性的，简单单元组成的，广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所做出的交互反映。神经网络的基本单元是神经元模型，当一个神经元兴奋时，会向相连的神经元发送化学介质，从而改变神经元内的电位，如果某神经元的电位超过了阈值，那么就会兴奋起来（阈值就是平时所说的偏差bias）。M-P神经元模型：模型中，神经元接受...

2020-06-28 15:20:53 769

原创西瓜书学习笔记（1）

西瓜书学习笔记chapter 1预测任务分为：若预测的是离散值，如好瓜，坏瓜，则称为“分类”；若预测的是连续值，如西瓜的成熟度0.96，则称为“回归”；预测任务的目标是建立输入到输出的映射f。对西瓜做聚类，把西瓜分为若干组，每一组称为一个“簇”；在聚类任务中，分类的标准事先并不清楚，且训练样本通常不拥有标记（label）。监督学习：分类和回归无监督学习：聚类学得的模型适用于新样...

2020-06-28 15:20:23 89

原创西瓜书学习笔记（2）

西瓜书学习笔记chapter 22.1 经验误差与过拟合分类错误的样本数占总样本的比例称为“错误率”（error rate）精度=1-错误率学习器的实际预测输出与样本的真实输出之间的差异称为“误差”，在训练集上称为训练误差，测试集上称为泛化误差。过拟合的原因：学习能力太过强大，学习到了训练集中的不太一般的特性。欠拟合则是学习能力不够，可以通过在决策树学习中扩展分支，在神经网络中增加训...

2020-06-28 15:19:48 204

原创西瓜书笔记（3）

chapter 3 线性模型3.1 基本形式许多功能强大的非线性模型，可在线性模型的基础上，通过引入层级结构或高维映射而得。且线性模型的w直观表达了各属性在预测中的重要性，因此有很好的可解释性。3.2 线性回归...

2020-06-28 15:19:18 195

原创西瓜书笔记（4）

## chapter 4 决策树4.1 基本流程决策树是常见的机器学习方法，我们希望从给定的训练数据集中学得一个模型用以对新示例进行分类，这个把样本分类的任务，可看做对“当前样本属于正类吗？” 这个问题的决策或判定过程。决策树是基于树结构来进行决策的：决策过程中的最终结论对应了希望的判定结果，例如“是”或“不是”好瓜，决策过程中提出的每个判定问题都是对每个属性的测试，例如“色泽=？”“根...

2020-06-28 15:18:13 271

原创 LRN-局部响应标准化以及resnet解读

LRN全称为Local Response Normalization，即局部响应归一化层LRN函数类似DROPOUT和数据增强作为relu激励之后防止数据过拟合而提出的一种处理方法。这个函数很少使用，基本上被类似DROPOUT这样的方法取代，见最早的出处AlexNet论文对它的定义, 《ImageNet Classification with Deep ConvolutionalNeural N...

2020-03-04 17:34:41 244

原创 pytorch第一周作业

1. 安装anaconda,pycharm, CUDA+CuDNN（可选），虚拟环境，pytorch，并实现hello pytorch查看pytorch的版本import torchprint("hello torch{}".format(torch.__version__))print(torch.cuda.is_available())输出hello torch1.2.0+cu...

2020-01-19 17:36:17 182

weixin_41872340的博客