小珈猫-CSDN博客

原创【比赛笔记】异常检测-二

1.代码参考参考的baseline- yolov5修改版相关训练调节笔记参见链接代码讲解视频参考链接2.环境安装个人环境说明：win1012g内存， nvidia gtx 1060, cuda10.1注意：本地训练使用的是pytorch == 1.7环境，其他安装包参见require.txtdocker 中的 pytorch==1.4 （这个问题后续会说明）因为官方的yolov5.pt权重是使用torch==1.7以上的，所以使用其他版本torch加载的时候会有问题，为了避免问题。

2021-02-25 23:03:08 662

原创【比赛笔记】时间序列-二

一、赛题相关数据简介本次比赛使用的数据包括CMIP5/6模式的历史模拟数据和美国SODA模式重建的近100多年历史观测同化数据。每个样本包含以下气象及时空变量：海表温度异常(SST)，热含量异常(T300)，纬向风异常（Ua），经向风异常（Va），数据维度为（year,month,lat,lon）。对于训练数据提供对应月份的Nino3.4 index标签数据。训练数据标签说明标签数据为Nino3.4 SST异常指数，数据维度为（year,month）。CMIP(SODA)_train.

2021-02-25 22:44:47 587 1

原创【比赛笔记】天池（一）

Docker是一个开源的引擎，可以轻松的为任何应用创建一个轻量级的、可移植的、自给自足的容器。开发者在笔记本上编译测试通过的容器可以批量地在生产环境中部署，包括VMs（虚拟机）、 bare metal、OpenStack 集群和其他的基础应用平台。Docker通常用于如下场景：web应用的自动化打包和发布；自动化测试和持续集成、发布；在服务型环境中部署和调整数据库或其他的后台应用；从头编译或者扩展现有的OpenShift或Cloud Foundry平台来搭建自己的PaaS环境。正因为Docker

2021-02-21 23:30:51 625

原创【科研笔记】谈谈生成模型GAN的理解

1. GAN的基本思想GAN全称对抗生成网络，顾名思义是生成模型的一种，而他的训练则是处于一种对抗博弈状态中的。下面举例来解释一下GAN的基本思想。假如你是一名篮球运动员，你想在下次比赛中得到上场机会。于是在每一次训练赛之后你跟教练进行沟通：你：教练，我想打球教练：（评估你的训练赛表现之后）… 算了吧（你通过跟其他人比较，发现自己的运球很差，于是你苦练了一段时间）你：教练，我想打球教练：… 嗯还不行（你发现大家投篮都很准，于是你苦练了一段时间的投篮）你：教练，我想打球教练： … 嗯

2021-01-21 17:04:33 1415

原创自然语言处理（四）语言模型

传统语言模型N元文法大规模语料库的出现为自然语言统计处理方法的实现提供了可能，统计方法的成功应用推动了语料库语言学的发展。基于大规模语料库的统计方法可以：－发现语言使用的普遍规律－通过机器学习模型自动获取语言知识－对未知语言现象进行推测说明：(1) wi 可以是字、词、短语或词类等，统称为统计基元。通常以“词”代之；(2) wi 的概率取决于 w1, …, wi-1，条件序列w1, …, wi-1 称为wi 的历史(history)。神经语言模型...

2021-01-20 23:41:42 1527

原创【LC刷题笔记】第四天：23+26+33（1-16）

33. 搜索旋转排序数组升序排列的整数数组 nums 在预先未知的某个点上进行了旋转（例如， [0,1,2,4,5,6,7] 经旋转后可能变为 [4,5,6,7,0,1,2] ）。请你在数组中搜索 target ，如果数组中存在这个目标值，则返回它的索引，否则返回 -1 。示例 1：输入：nums = [4,5,6,7,0,1,2], target = 0输出：4示例 2：输入：nums = [4,5,6,7,0,1,2], target = 3输出：-1示例 3：输入：nums = [

2021-01-16 23:06:10 243

原创【LC刷题笔记】第三天：16+20+21（1-15）

16. 最接近的三数之和给定一个包括 n 个整数的数组 nums 和一个目标值 target。找出 nums 中的三个整数，使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。示例：输入：nums = [-1,2,1,-4], target = 1输出：2解释：与 target 最接近的和是 2 (-1 + 2 + 1 = 2) 。提示：3 <= nums.length <= 10^3-10^3 <= nums[i] <= 10^3

2021-01-15 19:25:25 173

原创【LC刷题笔记】第三天：11+14+15（1-13）

11. 盛最多水的容器给你 n 个非负整数 a1，a2，…，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0) 。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。说明：你不能倾斜容器。示例 1：输入：[1,8,6,2,5,4,8,3,7]输出：49解释：图中垂直线代表输入数组 [1,8,6,2,5,4,8,3,7]。在此情况下，容器能够容纳水（表示为蓝色部分）的最大值为 49。def

2021-01-13 23:13:18 191

原创【LC刷题笔记】第一天：7+8+9（1-12）

整数反转给出一个 32 位的有符号整数，你需要将这个整数中每位上的数字进行反转。注意：假设我们的环境只能存储得下 32 位的有符号整数，则其数值范围为 [−231, 231 − 1]。请根据这个假设，如果反转后整数溢出那么就返回 0。示例 1：输入：x = 123输出：321示例 2：输入：x = -123输出：-321示例 3：输入：x = 120输出：21示例 4：输入：x = 0输出：0class Solution(object): def reverse(s

2021-01-12 23:32:18 243

原创【LC刷题笔记】第一天：2+4+5（1-11）

两数之和给定一个整数数组 nums 和一个整数目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。你可以按任意顺序返回答案。示例 1：输入：nums = [2,7,11,15], target = 9输出：[0,1]解释：因为 nums[0] + nums[1] == 9 ，返回 [0, 1] 。示例 2：输入：nums = [3,2,4], target = 6输出：[1,

2021-01-11 23:49:44 189

原创【AI笔记】刘成林讲座-人工智能发展趋势

专用智能：已经取得很大的成功通用智能：与人类智能水平还有很大的差距发展趋势通用人工智能：多模态信息协同，举一反三，自主学习，环境自适应理论方法：连接主义与符号主义融合，融入知识推理，人工智能与人类智能互补融合，可解释性人工智能，复杂系统智能人工智能将与人类智能结合可解释性人工智能：新兴~复杂系统智能：多个智能体互相作用，高度非线性，动态变化...

2020-12-15 20:24:09 205

原创【机器视觉】(北邮版）卷积神经网络

卷积神经网络中，卷积核可以按照指定的间隔进行卷积操作，这个间隔就是卷积步长。

2020-12-09 15:04:43 252

原创自然语言处理(三) 语料库和语言知识库

语料库基本概念语料库(corpus)：用于存放语言数据的文件(语言数据库)。语料库语言学已经成为语言研究的主流。基于语料库的研究不再是计算机专家的独有领域，它正在对语言研究的许多领域产生愈来愈大的影响。语料库语言学研究的内容：语料库的建设与编纂（最重要）语料库的加工和管理技术语料库的使用语料库技术的发展语料库类型==按内容构成和目的划分 ==异质(heterogeneous)语料库：最简单的语料收集方法，没有事先规定和选材原则。异质(heterogeneous)语料库：最简单的语料

2020-12-08 16:00:10 5673 1

原创自然语言处理（二）数学基础知识

概率论基础信息论基础熵是信息论中重要的基本概念主要用来衡量不确定性！！！！熵又称为自信息(self-information)，表示信源 X 每发一个符号(不论发什么符号)所提供的平均信息量。熵也可以被视为描述一个随机变量的不确定性的数量。一个随机变量的熵越大，它的不确定性越大。那么，正确估计其值的可能性就越小。越不确定的随机变量越需要大的信息量用以确定其值。...

2020-12-08 14:13:04 822

原创【机器视觉】(北邮版）卷积，图像降噪，边缘提取，纹理表示

梯度是链式法则，连乘–》容易造成梯度消失Dropout:随机失活~卷积与图像去噪对一个像素点做卷积–》推广到所有像素点卷积核：注意：卷积核需要先翻转才能做滤波，不然不叫做卷积，叫滤波卷积性质：1、叠加性2、平移不变性边界填充：不填充会导致图像边界小一圈0填充：Zero-padding其他填充方法：拉伸，镜像卷积操作后的图像要小于输入时图像，通过边界填充，我们可以实现卷积前后图像的尺寸不变；卷积示例：单位脉冲：无变化平滑：锐化：原图-平滑=细节原图+细节=锐化

2020-12-02 23:37:57 960

原创 Numpy下 5

# 数据集中，包括了三类不同的鸢尾属植物：Iris Setosa，Iris Versicolour，Iris Virginica。# 每类收集了50个样本，因此这个数据集一共包含了150个样本。# sepallength：萼片长度# sepalwidth：萼片宽度# petallength：花瓣长度# petalwidth：花瓣宽度import numpy as np# from sklearn.datasets import load_iris# data = load_iris()#

2020-12-01 19:29:41 112

原创 numpy下 4

今天忙，简单列一下，明天补np中的广播机制参考:https://www.runoob.com/numpy/numpy-broadcast.html广播的规则:让所有输入数组都向其中形状最长的数组看齐，形状中不足的部分都通过在前面加 1 补齐。输出数组的形状是输入数组形状的各个维度上的最大值。如果输入数组的某个维度和输出数组的对应维度的长度相同或者其长度为 1 时，这个数组能够用来计算，否则出错。当输入数组的某个维度的长度为 1 时，沿着此维度运算时都用此维度上的第一组值。**简单理解：**对两个数组，

2020-11-29 23:11:20 34703

原创 Numpy下 3

次序统计1.1 计算最小值numpy.amin(a[, axis=None, out=None, keepdims=np._NoValue, initial=np._NoValue, where=np._NoValue])numpy中amin()方法中维度axis=0 1 2 的理解axis=0 从最外一层的维度来比较(把两块面包变成一块面包)axis=1 从中间一层的维度来比较(比较行，将多行压缩成了一行)axis=2 从最内一层的维度来比较(比较列，把多列压缩成了一列)import numpy as

2020-11-27 20:55:07 176

原创【Datawhale】Numpy2

numpy.random 模块对 Python 内置的 random 进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数，如正态分布、泊松分布等。numpy.random.seed(seed=None) Seed the generator.seed() 用于指定随机数生成时所用算法开始的整数值，如果使用相同的 seed() 值，则每次生成的随机数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。在对数据进行预处理时，经常加入新的操作或改变处

2020-11-25 20:52:03 140

原创【DataWhale】推荐系统

赛题理解赛题理解是切入一道赛题的基础，会影响后续特征工程和模型构建等各种工作，也影响着后续发展工作的方向，正确了解赛题背后的思想以及赛题业务逻辑的清晰，有利于花费更少时间构建更为有效的特征模型，在各种比赛中，赛题理解都是极其重要且必须走好的第一步，今天我们就从赛题的理解出发，首先了解一下这次赛题的概况和数据，从中分析赛题以及大致的处理方式，其次我们了解模型评测的指标，最后对赛题的理解整理一些经验。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为背景，

2020-11-25 20:49:32 202

原创【论文笔记】Progressive Multi-Granularity Training of Jigsaw Patches(ECCV2020)

代码地址：https://github.com/RuoyiDu/PMG-Progressive-Multi-Granularity-TrainingMotivation:less effort has been placed to which granularities are the most discriminative and how to fuse information cross multi-granularity.关键技术点：(i) a progressive training st

2020-11-24 16:26:55 928

原创【Datawahle】Numpy下-输入输出

numpy 二进制文件save()、savez()和load()函数以 numpy 专用的二进制类型（npy、npz）保存和读取数据，这三个函数会自动处理ndim、dtype、shape等信息，使用它们读写数组非常方便，但是save()输出的文件很难与其它语言编写的程序兼容。npy格式：以二进制的方式存储文件，在二进制文件第一行以文本形式保存了数据的元信息（ndim，dtype，shape等），可以用二进制工具查看内容。npz格式：以压缩打包的方式存储文件，可以用压缩软件解压。numpy.save(

2020-11-23 19:24:04 177

原创【机器视觉】(北邮版）图像分割

语义分割它是像素级的概念，而实例分割还要进一步区分哪个是哪个，需要进一步地划分。语义分割：不区分实例，只考虑像素类别！语义分割思路：滑动窗口问题: 效率太低！重叠区域的特征反复被计算解决方案：全卷积网络让整个网络只包含卷积层，一次性输出所有吧像素的类别预测~最后一层为C类，即CHW问题：处理过程中一直保持原始分辨率，对于显存的需求会非常庞大好处：减少运算量，加快运算速度~改进：先下采样再上采样~FCNet下采样：pooling, stried convolution上采样：近邻法，

2020-11-20 10:22:14 424

原创【valse】细粒度识别

Learning from fine-grained and long-tailed visual data迁移学习：大数据集—>小数据集迁移任务的指标上升率：与数据的量级是对数的关系结果如下所示：更多的预训练数据并非有用~在2018找出迁移任务的子集而非所有的，找出一定的相似度，利用预训练的子集即可~即衡量domain similarityimagenet’和inat有很强的偏差在迁移学习的时候有一个平均效应，并不是更多的数据就会带来更好的结果Dealing with long-

2020-11-17 15:21:49 736

原创【Valse2020】细粒度图像识别年度进展概述

细粒度识别的挑战：类间差异大，类内差异小常用的数据集：鸟，花，汽车……不同的范式：1. by localization-classification subnetworks定位子网络，典型工作：ICCV，S3N

2020-11-16 20:06:06 1365

原创【DataWhale学习】图像检索

从文字进行检索：TBIR从内容检索：CBIRCBIR应用场景：拍照购，服装检索，人脸识别，内容审核检索的本质：特征提取和相似度计算流程图如下：图像检索特征：如果图像相似，则图像特征也相似局部特征：关键点：比如角点，数控不一全局特征：图像整体的统计信息局部特征：关注局部信息，比如sift特征点优点：尺度不变性缺点：提取的数量不固定，而且容易受到文字的影响全局特征：全局信息，比如颜色直方图或者CNN特征优点：关注全局信息，而且特征维度固定缺点：对尺度变化敏感图像检索的类别：比

2020-11-16 17:51:04 211

原创 Numpy.组队学习五

numpy.lexsort()用于对多个序列进行排序。把它想象成对电子表格进行排序，每一列代表一个序列，排序时优先照顾靠后的列。这里举一个应用场景：小升初考试，重点班录取学生按照总成绩录取。在总成绩相同时，数学成绩高的优先录取，在总成绩和数学成绩都相同时，按照英语成绩录取…… 这里，总成绩排在电子表格的最后一列，数学成绩在倒数第二列，英语成绩在倒数第三列。...

2020-10-31 23:12:52 124

原创【Datawhale】推荐系统GBDT+LR

GBDT+LR简介前面介绍的协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐，忽视了用户自身特征，物品自身特征以及上下文信息等，导致生成的结果往往会比较片面。而这次介绍的这个模型是2014年由Facebook提出的GBDT+LR模型，该模型利用GBDT自动进行特征筛选和组合，进而生成新的离散特征向量，再把该特征向量当做LR模型的输入，来产生最后的预测结果，该模型能够综合利用用户、物品和上下文等多种不同的特征，生成较为全面的推荐结果，在CTR点击率预估场景下使用较.

2020-10-30 15:52:38 1053 1

原创【论文笔记】Objects365: A Large-scale, High-quality Dataset for Object Detection（ICCV 2019）

内容:It is the largest object detection dataset (with full annotation) so far and establishes a more challenging benchmark for the community.作为预训练模型有更好的精确率和更快的收敛速度！介绍数据集的标注过程这样更清晰！最大的亮点就是对数据集迁移能力的分析：Iterations所谓iterations就是完成一次epoch所需的batch个数。刚.

2020-10-29 14:37:48 659

原创 Datawhale组队学之逻辑函数

逻辑函数numpy.all(a, axis=None, out=None, keepdims=np._NoValue)numpy.any(a, axis=None, out=None, keepdims=np._NoValue)numpy.isnan(x, *args, **kwargs)numpy.logical_notnumpy.logical_andnumpy.logical_ornumpy.logical_xornumpy.greater(x1, x2, *args, **kwarg

2020-10-28 21:48:49 137

原创【Datawhale】推荐系统-Wide & Deep

点击率预估是对每次广告点击情况作出预测，可以输出点击或者不点击，也可以输出该次点击的概率，后者有时候也称为pClick.对于点击率预估模型而言，其最终作用是输出点击的一个概率，是一个回归模型可以解决[[FM模型]]的一些问题如泛化能力过强导致会推荐一些其实并没有那么相关的物品。Wide & Deep 模型的记忆能力和泛化能力对于RS而言，memorization和generalization是两个常见的概念，其中memorization代表推荐系统的保守性，即RS通过记忆为用户推荐之前行为的i

2020-10-27 20:07:05 286

原创【Datawhale】推荐系统-矩阵分解和FM

一、矩阵分解矩阵分解模型是在协同过滤共现矩阵的基础上，使用更稠密的隐向量表示用户和物品，挖掘用户和物品的隐含兴趣和隐含特征，在一定程度上弥补协同过滤模型处理稀疏矩阵能力不足的问题。它的核心思想是通过隐含特征（latent factor）联系用户兴趣和物品（item），基于用户的行为找出潜在的主题和分类，然后对item进行自动聚类，划分到不同类别/主题(用户的兴趣)。我们下面拿一个音乐评分的例子来具体看一下隐特征矩阵的含义。假设每个用户都有自己的听歌偏好，比如A喜欢带有小清新的，吉他伴奏的

2020-10-25 20:52:08 188

原创【DataWhale】numpy组队学习（三）

更改形状在对数组进行操作时，为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度，返回一个元组，这个元组的长度就是维度的数目，即 ndim 属性(秩)。通过修改 shap 属性来改变数组的形状。 import numpy as np x = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.shape) # (8,)x.shape = [2, 4]print(x)# [[1 2 9 4]# [5 6 7

2020-10-25 20:37:04 109

原创【DataWhale】numpy组队学习（二）

索引与切片数组索引机制指的是用方括号（[]）加序号的形式引用单个数组元素，它的用处很多，比如抽取元素，选取数组的几个元素，甚至为其赋一个新值整数索引要获取数组的单个元素，指定元素的索引即可。切片索引切片操作是指抽取数组的一部分元素生成新数组。对 python 列表进行切片操作得到的数组是原数组的副本，而对 Numpy 数据进行切片操作得到的数组则是指向相同缓冲区的视图。如果想抽取（或查看）数组的一部分，必须使用切片语法，也就是，把几个用冒号（ start:stop:step ）隔开的数字置于方括号内

2020-10-23 22:32:07 94

原创【Datawhale】推荐系统-协同过滤

协同过滤：基本思想是根据用户之前的喜好以及其他兴趣相近的用户的选择来给用户推荐物品基于用户的协同过滤算法(UserCF): 给用户推荐和他兴趣相似的其他用户喜欢的产品基于物品的协同过滤算法(ItemCF): 给用户推荐和他之前喜欢的物品相似的物品2. 相似性度量方法（1）杰卡德(Jaccard)相似系数两个用户u uu和v vv交互商品交集的数量占这两个用户交互商品并集的数量的比例：s i m u v = ∣ N ( u ) ∩ N ( v ) ∣ ∣ N ( u ) ∣ ∪ ∣ N ( v ) ∣ sim

2020-10-22 21:25:22 171

原创【代码笔记】pytorch学习文档（一）

torch.optim是一个实现了各种优化算法的库。大部分常用的方法得到支持，并且接口具备足够的通用性，使得未来能够集成更加复杂的方法。为了构建一个Optimizer，你需要给它一个包含了需要优化的参数（必须都是Variable对象）的iterable。然后，你可以设置optimizer的参数选项，比如学习率，权重衰减，等等。optimizer = optim.SGD(model.parameters(), lr = 0.01, momentum=0.9)optimizer = optim.Adam

2020-10-22 15:38:20 289

空空如也

空空如也