- 博客(18)
- 资源 (1)
- 收藏
- 关注
原创 详细理解"Deep Boosting for Image Denoising"这篇文章
目录前言文章思路(公式描述)Result前言Deep Boosting for Image Denoising是ECCV2018年的文章,由于小菜我主要接触的是关于Low-Level Computer Vision,所以在ECCV2018论文集中看到了这一篇文章。 这篇文章由于利用了Boosting方法,是可以基于一个比较成熟的网络上做进一步的Boostin...
2019-06-28 13:54:23 2324 4
原创 Python - 分治算法
MapReduce(分治算法的应用) 是 Google 大数据处理的三驾马车之一,另外两个是 GFS 和 Bigtable。它在倒排索引、PageRank 计算、网页分析等搜索引擎相关的技术中都有大量的应用。主要思想分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。分治算法的步骤分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题); 治:将这些
2020-08-20 20:09:20 853
原创 Task6 基于深度学习的文本分类3
基于深度学习的文本分类Transformer的原理和基于预训练语言模型(Bert)的词表示Bert的使用,具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后.
2020-08-04 23:39:21 203
原创 Task5 基于深度学习的文本分类2
1、Word2Vec的使用和基础原理2、使用TextCNN、TextRNN进行文本表示3、使用HAN网络结构完成文本分类文本表示方法 Part3词向量通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每一条输入文本,选取一个上下文窗口和一个中心词,并基于这个中心词去预测窗口里其他词出现的概率。因此,word2vec模型可以方便地从新增语料中学习到新增词的向量表达,是一种高效的在线学习算法(online learning)。wor
2020-07-30 16:36:57 262
原创 Task4 基于深度学习的文本分类1
基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hot Bag of Words N-gram TF-IDF也通过sklean进行了相应的实践,相信你也有了初步的认知。但上述方法都或多或少存在一定的问题:转换得到的向量维度很高,需要较长的训练实践;没有考虑单词与单词之间的关系,只是进行了统计。与这些表示方法不同,深度学习也可以用于文本表示,还
2020-07-27 22:42:01 143
原创 Task3 基于机器学习的文本分类
1、TF-IDF的原理和使用2、sklearn的机器学习模型用于文本分类文本表示方法在机器学习算法的训练过程中,假设给定$N$个样本,每个样本有$M$个特征,这样组成了$N×M$的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embedd...
2020-07-25 22:29:26 159
原创 Task2 数据读取与数据分析
本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直接用Pandas完成数据读取的操作。import pandas as pdtrain_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=100)这里的read_csv由三部分构成: 读取的文件路径,这里需要根据改成你本地的路径,可以使用相
2020-07-22 23:18:47 160
原创 Task.1 零基础入门NLP - 新闻文本分类赛题理解
赛题理解赛题名称:零基础入门NLP之新闻文本分类 赛题目标:对NLP的预处理、模型构建和模型训练等知识点进行了解回顾。 赛题任务:自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样
2020-07-21 21:33:34 150
原创 Datawhale 零基础入门CV赛事模型集成
目录集成学习方法深度学习中的集成学习1.集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证,训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行集成:对预测的结果的概率值进行平均,然后.
2020-06-03 16:36:48 186 1
原创 Datawhale 零基础入门CV赛事模型训练与验证
目录1、在训练集上进行训练,并在验证集上进行验证;2、模型可以保存最优的权重,并读取权重;3、记录下训练集和验证集的精度,便于调参。1、在训练集上训练,并在验证集上验证在机器学习模型(特别是深度学习模型)的训练过程中,模型是非常容易过拟合的。深度学习模型在不断的训练过程中训练误差会逐渐降低,但测试误差的走势则不一定。在模型的训练过程中,模型只能利用训练数据来进行训练,模型并不能接触到测试集上的样本。因此模型如果将训练集学的过好,模型就会记住训练样本的细节,导致模型在测试集的泛化效果较
2020-05-30 21:40:33 211
原创 Datawhale零基础入门CV赛事字符识别模型
目录1、模型选择2、模型具体内容介绍1、模型选择在深度学习网络中,可以选取FC(full connect)全连接网络结构、CNN卷积神经网络结构、RNN递归神经网络以及变种LSTM长短期记忆神经网络,针对不同的优缺点、可以知道的是,针对于1D信号而言、FC全连接神经网络应用较广,由于其可以直接做FC而不需要进行flatten,对于二维图像信号而言即2D信号而言,便是现在深度学习应用最广的卷积神经网络结构,具体可以包含(步长、卷积核大小、卷积核个数等)、扩张卷积等等,RNN卷积神经网络在...
2020-05-27 09:56:27 320
原创 DataWhale 零基础入门CV赛事-街景字符识别数据读取与数据扩增
目录1、数据读取2、数据增强3、Pytorch的dataloader导入库方法1、数据读取python中数据读取的库有很多中,其中比较经典的是Scipy、PIL、Opencv、Skimage等等。针对我们要做的赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,对于上面介绍的库,其中Scipy可以通过Scipy.misc.imread实现,这里读取的数据的shape为[w,h,c],与matlab的imread大同小异。PIL.Image.
2020-05-23 23:41:54 271
原创 DataWhale 零基础入门CV赛事-街景字符识别赛题理解
1、赛题理解2、数据预处理3、模型选择1、赛题理解本次比赛为DataWhale与阿里天池共同举办的街景字符识别赛事,主要目标在于将街景的上面获取的字符进行识别,该数据来源于收集的SVHN街道字符,并做了匿名采样处理,为了公平,故所有参赛选手都只能使用比赛给定的官方数据集进行对模型进行训练,不能使用原始的SVHN数据集进行训练。所以我们很明显的想到需要对给定的数据集,进行先检测字符位置,可以选取YOLO4进行对字符位置进行检测,不过官方同时也给出了标注区域,该标注区域存储在JSON..
2020-05-20 17:42:04 237 1
原创 Python实现对任意维数组的的某一维实现快速排序
主要想法和快速排序一致,不同的是将某一维度作为索引,该索引位置修改了,则对应的原始数据也按照对应的维度进行修改即可,以下例子为二维数组的第一个维度进行的一个快速排序输入的nums_arraysnums_arrays= [[1,3],[4,2],[3,5]]输出的结果[[1, 3], [3, 5], [4, 2]]def fuction(nums_array,choose): ...
2020-03-28 15:24:55 709
原创 Python 异常
Python 异常异常简介raise语句内置的异常类自定义异常类except捕获异常finally函数处理异常简介Python在处理正常和异常,提供了功能强大的替代解决方案--异常处理方式异常对象未被处理或者捕获时,程序报错终止并显示错误信息如果只用于显示错误信息,显然毫无意义,所以要捕获该异常并处理raise语句引发异常可以采用raise语句去实现,并将一个类(必须是Exception的子类)...
2018-06-28 16:23:17 213
原创 Python 运算符
对于简单的加法在Python内没有太多的不同,但是我们需要考虑到与C不同的各种变量类型 对于C语言运算符而言,存在一个特性,即类型小的的会在运算过程中自动转换为类型大的所以存在char -> short -> int -> unsigned int -> long -> double 自动转换其中float -> double也就是一个int型变量 + 一个 u...
2018-05-31 11:35:45 231
原创 Python字符串
字符串的学习:%号的使用字符串的关键字转义format的使用基本转换环节 浮点类型的显示%号的使用首先我们可以了解到%号是作为转义 也就是将字符串内包含的%s用于转换为后面需要替代的内容正常使用情况下tmpl = "Hello,%s.I use %s"change_str = ("python","it")tmpl % change_str输出Hello,python.I use it 这个字符串...
2018-05-29 12:03:14 230
原创 Python学习 第一天
学些Python前,已经了解到Python语言的强大,本人是一名苦逼的大四学生,在前面主要是弄嵌入式方向,接触过C/C++和Qt等,后面由于学习和项目的需求,所以开始接触Python。 Life is too short,We need Python。那么开始我们的真萌新Python之旅吧。学习的参考是Python基础教程第三版以及Python官网自带的帮助文档,感觉写的很...
2018-05-28 11:26:01 732 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人