自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

YYLin

机器学习实习生

原创 Y-Autoencoders: disentangling latent representations via sequential-encoding

Y-Autoencoders: disentangling latent representations via sequential-encoding前言论文架构损失函数总结 前言 这是2019年CVPR上的一篇文章,讲一下为啥介绍这篇文章吧,首先呢自己最近在做image-to-image,本篇...

2019-11-23 17:02:43

阅读数 132

评论数 0

原创 CCF乘用车细分市场销量预测之ARIMA模型

1: 什么是ARIMA模型 介绍ARIMA之前,我们首先介绍一下时间序列回归建模和一般回归建模的区别。想象一下我们预测某个人是否会还对应的贷款,即使我们拥有每个用户之前的贷款时间,但是这个时间仅仅表示用户申请贷款的时间,不同用户是否会还贷款和他们申请的时间关系不会很大(经济大萧条除外),显然此类...

2019-11-19 11:53:37

阅读数 330

评论数 2

原创 2019移动广告反欺诈算法挑战赛之一些奇妙的idea

首先简单介绍一下自己的几种写好代码但是还没有跑的方案,然后呢分享一下其他几个人的想法,看完感觉不错的话点个赞呗,哈哈哈哈哈哈 思路一: 处理长尾 对于类别特征处理一下长尾特征(也即是把make model ver这些特征中仅仅出现次数少于20次的数据归为一类),因为catboost对于类别...

2019-09-16 10:31:17

阅读数 1455

评论数 6

原创 2019移动广告反欺诈算法挑战赛baseline

前言: 分享这个baseline之前,首先先感谢一下我的好朋友油菜花一朵给予的一些帮助。然后呢介绍一下最近比赛中碰到的几个问题,以及解释。如果有可能的话,明天分享一个94.47左右的baseline吧,初赛之前设置为粉丝可见,初赛后在设置所有人可见吧。本来想分享47的baseline的,但是后来...

2019-08-18 20:57:33

阅读数 6447

评论数 27

原创 2019移动广告反欺诈算法挑战赛之数据清洗

原始数据集的各个属性: 1: sid每条记录的索引 2: label, 训练的标签 3: pkgname,一个包名代表一个应用,包名必须唯一, 4: ver, app版本号, 5: 对外广告位ID,应该是投放广告的位置 6: 对外媒体ID, 通过什么方式传播的广告 7: appt...

2019-08-03 14:52:28

阅读数 927

评论数 1

原创 2019移动广告反欺诈算法挑战赛之初始数据分析

前言: 最近参加的科大讯飞的2019移动广告反欺诈算法挑战赛,但是白天一直在忙着写论文,所以一直是跑跑别人的公开的baseline,调调参数一类的,现在是94.43左右,有需要的可以和我说一下,免费奉献。但是感觉成长不是很大,所以就学学kaggle上的一个大佬分析数据的方式很有意思,就拿过来学学...

2019-07-23 00:42:19

阅读数 1696

评论数 32

原创 使用迁移学习和融合模型进行图像识别

前言: 上一节介绍了如何使用迁移学习进行图像识别,但是只是在单模型上进行图像识别的任务。本节介绍的是如何使用融合模型进行图像识别任务。说起来有点抽象,但是原理并不复杂。具体过程如下: 首先: 我们将图像放到InceptionV3、InceptionResNetV2模型之中,并且得到图像的隐层特...

2019-07-06 19:38:08

阅读数 690

评论数 0

原创 Cats vs Dogs之使用迁移学习进行图像识别

前言: 前面介绍如何使用AlexNet、VGG19、ResNet_152 、InceptionV4 、DenseNet训练自己的数据集,接下来两节主要介绍如何使用迁移学习进行图像识别的任务。第一节是介绍使用单个模型进行图像识别的任务,第二节介绍使用融合模型进行图像是别的任务。 什么是迁移学...

2019-07-05 16:55:40

阅读数 393

评论数 0

原创 使用Densenet模型训练自己的数据集

前言: 之前四篇文章分别介绍了如何使用AlexNet、VGG19、ResNet_152 、Inception_V4训练自己数据集,本节将介绍最后一个经典图像识别模型Densenet,Densenet是CVPR2017年的Best Paper, DenseNet脱离了加深网络层数(ResNet)和...

2019-07-02 23:53:33

阅读数 2101

评论数 17

原创 使用Inception V4训练自己的数据集

前言: Inception v1-v4是谷歌推出的一系列产品。这节我们主要介绍一下Inception v1-v4各个模型的特点,并在最后实现一下使用Inception v4进行卫星图像的分类。在这里谈一下我对Inception系列的粗浅的认识。我们可以看到之前一系列深度卷积模型只是在关注如何在不...

2019-07-02 21:20:52

阅读数 1283

评论数 10

原创 使用Resnet_50_101_152训练自己的数据集

前言: 前面两节介绍了AlexNet和VGG-19模型的结构,以及具体的实现。正如前面讲的两者在结构上是相似的。但是接下来讲的Resnet(残差网络)不仅在深度上取得巨大的进步,而且在架构上也与之前的网络是不同的。残差网络的发明人是何凯明博士期间,在CVPR的文章《Deep Residual L...

2019-07-02 17:41:52

阅读数 2286

评论数 18

原创 使用VGG-19模型训练自己的数据集

前言: 上一节介绍的图像识别中一个经典的模型AlexNet,今天介绍的是图像识别领域另一个经典的模型VGG-19。VGG-19是由牛津大学的Oxford Visual Geometry Group实验室发明的。因为不像是AlexNet是由Alex一个人完成的。所以这个模型就按照实验室的名称的缩写...

2019-07-02 17:16:38

阅读数 2550

评论数 31

原创 使用AlexNet训练自己的数据集

前言: 前两篇分别介绍两个图像识别的模型,第一个是mnist手写体图像识别,第二个是在第一个代码的基础上增加了一些优化技巧,例如正则化、dropout等,并且比较加上各种优化技巧之后图像识别的结果。接下来介绍几个图像识别中比较经典的算法。具体的就介绍AlexNet、VGG19、ResNet_15...

2019-07-02 15:58:12

阅读数 2858

评论数 30

原创 2019腾讯广告算法大赛之使用XGBOOST模型+网格搜索 轻松上80

前三个部分分别介绍了如何清洗广告数据集、用户数据集、曝光广告数据集和测试集,以及构如何构造训练的标签,具体链接见下文,在我们构造好训练集之后,我们开始使用XGBOOST模型训练数据集,训练方法分为两个版本,第一个版本是简单版本,训练集的属性列中只包含取唯一值的数据,第二个版本是加上取多值的属性列。...

2019-05-06 07:29:54

阅读数 1347

评论数 14

原创 2019腾讯广告算法大赛之整理测试数据集以及构造训练集

在重构训练样本之前我们首先需要对测试集中样本进行整理,因为训练的样本要和测试样本在维度上(属性列)要保持一致的。首先看一下原始样本的格式: 除了人群定向这一列属性需要根据关键字进行分裂之外,对于其他属性我没有做任何修改,Okay!!!对于人群定向的修改可以分成两种情况, 第一种: 当该条记...

2019-05-05 15:01:05

阅读数 1517

评论数 11

原创 2019腾讯广告算法大赛之清洗曝光广告数据集以及构造标签

首先是对清洗曝光广告日志中的脏数据进行清洗,脏数据主要包括三种情况, 第一: 该条广告记录中的广告ID不存在于静态广告数据和操作广告数据中,因为不存的话则该条数据无法构造训练集。 第二: 广告请求时间不合理,也即是出现二月三十号的这种情况 第三: 如果该条广告操作数据的取值不合理,例如(广告...

2019-05-05 10:47:53

阅读数 1204

评论数 7

原创 2019腾讯广告算法大赛之清洗广告数据集和用户数据集

研一下半学期参加的比赛,失败原因如下: 第一,pandas几乎是从零开始,对于某些数据的清洗如果使用pandas封装的函数可能只需要很短的时间,但是使用python的判断语句会很慢,而且可能做不出来。 okay 2019/06/05已学习 第二,因为赛题中需要自己构造训练数据和标签,对题目理...

2019-05-04 16:51:44

阅读数 2250

评论数 21

原创 研究生第一篇英文论文之ON THE EFFECTS OF SKIP CONNECTIONS IN DEEP GENERATIVE ADVERSARIAL MODELS

前言: 前两天投了人生中的一篇英文的论文(ICME),其实论文的创新的并没有很多而且数据集单一,就是单论实验结果还不错,这篇文章就花了不到两个周的时间写作,时间确实有点赶所以完成度不是很高。其实研究生毕业之后也不一定继续搞科研写稿子,所以投论文对于我而言中不中其实没啥关系,主要是练习一下英文写作...

2019-12-16 17:31:08

阅读数 72

评论数 1

原创 研究生论文之基于图像特征的条件对抗式生成网络

前言: 前段时间看到CVPR上的一篇论文《Y-Autoencoders: disentangling latent representations via sequential-encoding》,其主要创新在于使用Autoencoders进行图像翻译也即是(image-to-image),感觉...

2019-11-23 20:53:43

阅读数 59

评论数 0

原创 Pandas入门之rolling滑动窗口

什么是滑窗?: 什么是滑动(移动)窗口?为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。举个例子,CCF乘用车销量预估比赛我们有一列属性关于每月的某种车型的新闻评论量,假设我的滑窗大小是3center设置为True的话,则意味着我用2016-9...

2019-11-19 17:18:43

阅读数 25

评论数 0

原创 Git的安装与上传文件

Git是什么?以及Git的安装, Git的最基本作用是版本控制,举个例子你的项目经理想让你做一个网站的登录界面。无论你做的怎么样他会让你一直修改。新手的话就有可能在原有的代码上直接修改,提交了N版之后项目经理告诉你,其实我感觉还是第一版的比较好,这个时候新手就煞笔了。一般的人的话就copy一份副...

2019-11-18 20:09:01

阅读数 37

评论数 0

原创 将一个文件夹下所有的.jpg文件移动到另一个文件夹下面

目标很简单。将 ../Dataset/celebA/所有的jgp文件 移动到 ../Dataset/celebA/train文件夹下面。非常简单直接show代码 # -*- coding: utf-8 -*- # @Time : 2019/11/6 10:26 # @Author ...

2019-11-05 00:07:59

阅读数 47

评论数 0

原创 Linux下创建一个用户然后安装Anaconda和TensorFlow

# 目标在Linux服务器上新建一个用户 并为用户安装Anaconda和tensorflow环境 第一部分: 创建用户,并赋予sudo权限 1.1 创建一个名为jiakai的账号 sudo useradd -d /home/jiakai -m -s /bin/bash jiakai ...

2019-10-29 21:32:18

阅读数 84

评论数 0

原创 “添翼杯”人工智能创新应用大赛垃圾分类之模型部分

前言: 关于这个比赛的介绍可以参考之前一篇文章,本节主要介绍的是模型部分。因为比赛比较冲忙只能测试InceptionResNetV2和DenseNet201的效果。比赛有点遗憾的是没有把所有的单独模型都尝试一边,比较一下效果,第二使用融合模型的时候效果不好,但是没有时间检查,第三没有尝试使用lg...

2019-08-14 23:39:18

阅读数 149

评论数 0

原创 “添翼杯”人工智能创新应用大赛之垃圾分类

前言: 前一段时间参加了一个关于“添翼杯”人工智能创新应用大赛,题目要求是给你一张图像要你预测这个张图像属于可回收垃圾的概率,本质也就是一个图像二分类问题。简单记录一下比赛之中的经验吧。首先选择这个赛题是因为前一段时间总结了一下几个经典的图像识别网络,所以打算理论和实战结合看看各个模型在实际比赛...

2019-08-14 23:21:42

阅读数 126

评论数 0

原创 2019移动广告反欺诈算法挑战赛之数据特点

总结一下发现的数据特点: 1: 所有的华为手机的ppi值都为0

2019-08-04 15:18:58

阅读数 386

评论数 1

原创 unable to execute /usr/local/bin/pip: No such file or directory

这个错误是可能是由于你删除了pip,重新装一下就好了。 sudo wget https://bootstrap.pypa.io/get-pip.py sudo python get-pip.py # 你也有可能删除Ancona,Ancona重新安装的方法如下 下载Ancona wg...

2019-08-02 11:18:18

阅读数 393

评论数 0

原创 指定特定的python版本安装kears

安装keras不指定python版本 sudo pip install keras 使用python3.6安装keras sudo pip install -t ~/anaconda3/lib/python3.6/site-packages keras 卸载keras ...

2019-08-02 10:34:01

阅读数 146

评论数 0

翻译 数据挖掘比赛中几种常见的融合模型方案

前言: 数据挖掘相关的比赛中,几乎每个大佬都会谈到融合模型,但是具体模型的实现方式都不会在最后的代码中公布。okay本节介绍一下数据挖掘中的kaggle上一个大佬整理的融合模型的方案,以及代码实现。因为接下来要花好好的写论文了,在这里我先奉上相关的链接,等我论文结束了,再分享一下我的理解。 ...

2019-07-07 16:52:40

阅读数 374

评论数 0

原创 kaggle竞赛之cat vs dog数据预处理将猫和狗移动到不同文件夹下

比较基础的python程序,只是把猫狗图像移动到不同的文件夹之下。 # -*- coding: utf-8 -*- # @Time : 2019/6/30 19:35 # @Author : YYLin # @Email : 854280599@qq.com # @File ...

2019-07-03 11:02:32

阅读数 254

评论数 0

原创 The `weights` argument should be either random initialization or pre-training on ImageNet

首先看一下我的源码: from keras.applications.vgg16 import VGG16 vgg16_weights = '../Dataset/Weight_for_Cats_VS_Dogs/vgg16_weights_tf_dim_ordering_tf_ker...

2019-07-03 10:09:37

阅读数 304

评论数 0

原创 图像识别模型优化技巧之dropout 学习率递减 L1、L2正则 bacth normal的对比

okay 本节在上一节mnist图像识别的基础上增加一些优化算法,例如 dropout 学习率递减 L1、L2正则 bacth normal正则化优化上一节的模型。 从以下四个实验结果我们可以知道batch normal是个利器直接能够将模型的分数提高了0.5分左右,但是其他的几个优化技巧,...

2019-07-01 20:05:38

阅读数 84

评论数 0

原创 图像识别第一个代码之mnist(手写体图像)识别

前言: 之前一直是做GAN对抗式生成网络的,最近参加了百度的一个关于图像检测的一个比赛,从代码的难度上来说,一直以来都认为图像检测比GAN要简单,毕竟最后图像检测只是把图像放到一个卷积神经网络之中,得到图像的隐层特征,然后使用优化器对图像进行分类即可。但是GAN的话不仅要把上面的操作完成,而且还要...

2019-07-01 19:42:06

阅读数 185

评论数 0

原创 pytorch入门之第一章Variable的理解

仅仅是简单的记录一下自己学习pytorch的过程,刚刚学习难免理解不够,仅供参考而已。本节主要介绍一下我对pytorch中的变量 (variable)的理解, pytorch中的变量有三个属性,分别是data表示变量中的具体值, grad表示这个变量反向传播的梯度,这个的计算方式下面有专门的一个...

2019-06-28 10:22:56

阅读数 771

评论数 0

原创 将图像和对应的标签转化成会h5py文件

只是简单的记录一下自己写的小程序,程序比较简单,有问题可以问一下,但是就不做过多的解释了。 我的数据集的格式是,每个文件夹名称也即是图像对应的标签 相关代码: # -*- coding: utf-8 -*- # @Time : 2019/6/23 11:40 # @Autho...

2019-06-23 12:10:41

阅读数 694

评论数 0

原创 使用python画柱状图,并标记柱状图的标记值

前言: 这个分类中主要记录一些平时写的一些简单的小程序,代码比较简单,不做任何解释 import matplotlib.pyplot as plt name = ['part1_00', 'part1_01', 'part1_02&#...

2019-06-21 11:00:16

阅读数 2419

评论数 0

原创 linux中常用的文件操作

前言:简单记录一下工作中经常使用shell 命令 1、 查看一个文件有多少行,以及单词数目 命令: wc -lcw history.owl 解释: wc 表示使用的命令, l 查看有多少行数据 c表示多单词 w表示有多少字节 2、 查看文件之中某些关键字 命令 : cat his...

2019-06-20 08:20:28

阅读数 100

评论数 0

原创 ImportError: No module named 'imgaug'

跑程序的时候碰到ImportError: No module named 'imgaug'这个问题,尝试的解决方案分别是: 1、sudo pip install imgaug然后pip install opencv-python 没有成功 2然后试了一下老外的方法 sudo...

2019-06-07 09:49:35

阅读数 597

评论数 0

原创 Pandas入门第二章之数据清洗之数据变化

前言: 本节介绍主要介绍三个东西,第一重复值得删除,第二数据的映射,第三数据的离散化和分箱、第四如何发现并处理异常值。切记这里讲的比较简单,如果想要熟练使用pandas的话,参加几个比赛还是必要的。 数据清洗之删除重复值,使用drop_duplicates()的时候注意两个特点 第一: d...

2019-06-05 00:19:56

阅读数 59

评论数 0

原创 Pandas入门第三章之数据拼接操作

本节主要讲解pandas中的两种数据拼接操作,第一pd.merge()横向连接和pd.concat()纵向连接。还是那句话,我这只是简单地介绍一下,如果想要熟练掌握,参加一两个比赛还是必要的。 介绍pd.merge()函数的时候主要从两个方面介绍一下: 第一:merge()中如何根据特定的...

2019-06-05 00:19:20

阅读数 358

评论数 0

提示
确定要删除当前文章?
取消 删除