自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)

原创 Task04:查找2

两数之和class Solution: def twoSum(self, nums: List[int], target: int) -> List[int]: dic = dict() for i in range(len(nums)): if dic.get(target - nums[i]) is not None: return [dic.get(target - nums[i]),i] .

2020-08-28 22:40:44 39

原创 Task03:查找1

搜索插入位置class Solution: def searchInsert(self, nums: List[int], target: int) -> int: if not nums: return None left = 0 right = len(nums) - 1 if nums[left] == target: return left if nu.

2020-08-25 22:54:18 74

原创 Task02:动态规划

1 理解动态规划首先看定义:动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。从定义中至少可以看出来三点要点:1.动态规划其实是分治算法的一种2.动态规划中动态的意思是要解决的问题,其规模不确定,而问题的解却依赖于问题规模3.能以较快速度(动态规划是一种泛用性算法,而泛用性算法与特定算法相比往往存在性能差距)将结果正确计算出来动态规划效率高的原因,是以空间换取时间。将前一步的结果储存起来,下一步可以直接调用,加速了计算速度。引用其他文章中的理解:动

2020-08-23 22:56:31 47

原创 Task01:分治

1.概述分治算法的主要思想是将原问题递归地分成若干个子问题,直到子问题满足边界条件,停止递归。将子问题逐个击破(一般是同种方法),将已经解决的子问题合并,最后,算法会层层合并得到原问题的答案。分治算法的步骤:分:递归地将问题分解为各个的子问题(性质相同的、相互独立的子问题);治:将这些规模更小的子问题逐个击破;合:将已解决的子问题逐层合并,最终得出原问题的解;2.leetcode 题目练习2.1 第169题. 多数元素使用分治class Solution(object): def

2020-08-19 22:31:43 40

原创 文件与文件系统

文件与文件系统open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别newlin.

2020-08-08 21:59:58 712

原创 模块

在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。什么是模块容器 -> 数据的封装函数 -> 语句的封装类 ->

2020-08-07 22:10:11 32

原创 类与对象与魔法

对象 = 属性 + 方法对象是类的实例。换句话说,类主要定义对象的结构,然后我们以类为模板创建对象。类不但包含方法定义,而且还包含所有实例共享的数据。封装:信息隐蔽技术我们可以使用关键字 class 定义 Python 类,关键字后面紧跟类的名称、分号和类的实现。【例子】class Turtle: # Python中的类名约定以大写字母开头 """关于类的一个简单例子""" # 属性 color = 'green' weight = 10 legs = 4

2020-08-05 20:32:06 47

原创 Task6 基于深度学习的文本分类3-BERT

Task6 基于深度学习的文本分类3-BERT微调将最后一层的第一个token即[CLS]的隐藏向量作为句子的表示,然后输入到softmax层进行分类。预训练BERT以及相关代码下载地址:链接: https://pan.baidu.com/s/1zd6wN7elGgp1NyuzYKpvGQ 提取码: tmp5import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.I

2020-08-04 21:16:10 69

原创 函数与Lambda表达式

Lambda 表达式匿名函数的定义在 Python 里有两类函数:第一类:用 def 关键词定义的正规函数第二类:用 lambda 关键词定义的匿名函数python 使用 lambda 关键词来创建匿名函数,而非def关键词,它没有函数名,其语法结构如下:lambda argument_list: expressionlambda - 定义匿名函数的关键词。argument_list - 函数参数,它们可以是位置参数、默认参数、关键字参数,和正规函数里的参数类型一样。:- 冒号,在函数参

2020-08-02 23:10:59 35

原创 字典、集合和序列

字典可变类型与不可变类型序列是以连续的整数为索引,与此不同的是,字典以"关键字"为索引,关键字可以是任意不可变类型,通常用字符串或数值。字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型。那么如何快速判断一个数据类型 X 是不是可变类型的呢?两种方法:麻烦方法:用 id(X) 函数,对 X 进行某种操作,比较操作前后的 id,如果不一样,则 X 不可变,如果一样,则 X 可变。便捷方法:用 hash(X),只要不报错,证明 X 可被哈希,即不可变,反过来不可被哈希,即

2020-07-31 22:44:28 26

原创 Task5 基于深度学习的文本分类2-3TextRNN

TextRNNTextRNN利用RNN(循环神经网络)进行文本特征抽取,由于文本本身是一种序列,而LSTM天然适合建模序列数据。TextRNN将句子中每个词的词向量依次输入到双向双层LSTM,分别将两个方向最后一个有效位置的隐藏层拼接成一个向量作为文本的表示import loggingimport randomimport numpy as npimport torchlogging.basicConfig(level=logging.INFO, format='%(asctime)-15s

2020-07-31 22:22:04 40

原创 Task 4: 列表、元组和字符串

容器数据类型列表<class ‘list’>元组<class ‘tuple’>字典<class ‘dict’>集合<class ‘set’>字符串<class ‘str’>简单数据类型整型<class ‘int’>浮点型<class ‘float’>布尔型<class ‘bool’>...

2020-07-28 21:56:57 30

原创 Task4 基于深度学习的文本分类

学习目标学习FastText的使用和基础原理学会使用验证集进行调参FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在Embedding空间中进行平均,进而完成分类操作。所以FastText是一个三层的神经网络,输入层、隐含层和输出层。Bag of Tricks for Efficient Text Classification, https://arxiv.org/abs/1607.01759

2020-07-27 22:08:15 19

原创 Task3 基于机器学习的文本分类

学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类文本表示方法 Part1在机器学习算法的训练过程中,假设给定N个样本,每个样本有M个特征,这样组成了N×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入(Word Embe

2020-07-25 22:30:25 16

原创 Python标准异常总结

BaseException:所有异常的基类例外:常规异常的基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:除数为零AssertionError:断言语句(assert)失败AttributeError:尝试访问未知的对象属性EOFError:没有内建输入,到达EOF标记EnvironmentEr

2020-07-25 22:24:51 19

原创 条件语句-python

if 语句if expression: expr_true_suiteif 语句的 expr_true_suite 代码块只有当条件表达式 expression 结果为真时才执行,否则将继续执行紧跟在该代码块后面的语句。单个 if 语句中的 expression 条件表达式可以通过布尔操作符 and,or和not 实现多重条件判断。if 2 > 1 and not 2 > 3: print('Correct Judgement!')# Correct Judgeme

2020-07-23 22:07:01 28

原创 变量、运算符与数据类型

print() 函数print(*objects, sep=’ ‘, end=’\n’, file=sys.stdout, flush=False)将对象以字符串表示的方式格式化输出到流文件对象file里。其中所有非关键字参数都按str()方式进行转换为字符串输出;关键字参数sep是实现分隔符,比如多个参数输出时想要输出中间的分隔字符;关键字参数end是输出结束时的字符,默认是换行符\n;关键字参数file是定义流输出的文件,可以是标准的系统输出sys.stdout,也可以重定义为别的文件;关键

2020-07-22 22:31:22 14

原创 Task2 数据读取与数据分析

一,数据读取下载数据1.train_set.csv.zip2.test_a.csv.zip3.test_a_sample_submit.csv读取数据import pandas as pdtrain_df = pd.read_csv('../data/train_set.csv', sep='\t', nrows=100)数据分析句子长度%pylab inlinetrain_df['text_len'] = train_df['text'].apply(lambda x: len(x

2020-07-22 21:28:59 19

原创 Datawhale零基础入门NLP赛事 - Task1 赛题理解

赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票

2020-07-21 15:36:15 31

原创 Task04:HOG特征描述算子-行人检测

HOG特征介绍1.1 HOG简介HOG特征是一种图像局部特征,主要是基于梯度特性的直方图,然后将局部特征拼接起来作为总特征。局部特征在这里指的是将图像划分为多个子块(Block), 每个Block内的特征进行联合以形成最终的特征。HOG+SVM的工作流程如下:1.首先对输入的图片进行预处理2.然后计算像素点的梯度特特性,包括梯度幅值和梯度方向。3.然后投票统计形成梯度直方图,然后对blocks进行normalize4.最后收集到HOG feature(其实是一行多维的vector)放到SV.

2020-07-06 22:23:04 39

原创 Task03 Haar特征描述算子

3.1简介Haar-like特征最早是由Papageorgiou等应用于人脸表示,在2001年,Viola和Jones两位大牛发表了经典的《Rapid Object Detection using a Boosted Cascade of Simple Features》和《Robust Real-Time Face Detection》,在AdaBoost算法的基础上,使用Haar-like小波特征和积分图方法进行人脸检测,他俩不是最早使用提出小波特征的,但是他们设计了针对人脸检测更有效的特征,并对Ad

2020-07-02 21:52:58 57

原创 Task02 LBP特征描述算⼦-⼈脸检测

基于OpenCV的实现#coding:utf-8import cv2 as cv# 读取原始图像img= cv.imread('*.png')#face_detect = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')face_detect = cv.CascadeClassifier("lbpcascade_frontalface_improved.xml")# 检测人脸# 灰度处理gray = cv.cvtC

2020-06-28 22:44:57 46

原创 Task01哈里斯特征点检测器-兴趣点检测

1.1简介在图像处理领域中,特征点又被称为兴趣点或者角点,它通常具有旋转不变性和光照不变性和视角不变性等优点,是图像的重要特征之一,常被应用到目标匹配,目标跟踪,三维重建等应用中。点特征主要指图像中的明显点,如突出的角点,边缘端点,极值点等等,用于点特征提取的算子称为兴趣点提取(检测)算子,常用的有哈里斯角点检测,FAST特征检测,SIFT特征检测及SURF特征检测。1.角点使用一个滑动窗口在以下三幅图中滑动,可以进行以下建模:左图表示一个垂直区域,在各方向移动,窗口内部提示值均没有太大变化;中图

2020-06-24 22:58:58 86

原创 Task5 模型集成

集成学习方法– 假设你有许多基础分类器—“简单的分类规则”,则组合这些分类规则可能是一个好主意, 可能会比单个规则获得更高的精度– 选择基础分类器时候往往主要考虑的是其简单性,而非精度– 基础分类器应该对总体中的一部分不同个体是精确的,他们组合起来可以有效处理所有个体 (即互为补充)– 基础分类器之间的差异不同基础分类器有着不同的假设同一分类器有着不同的超参数同一输入对象或事件的不同表达:例如语音识别里面嘴唇运动的声音特征和形状变化过程都是输入不同的训练集:使用不同训练集并行或.

2020-06-02 22:47:21 49

原创 task04 模型训练与验证

模型训练与验证1 成熟的深度学习训练流程2 构造验证集3 模型训练与验证4 模型调参流程5 参考1 成熟的深度学习训练流程在训练集上进行训练,并在验证集上进行验证模型可以保存最优的权值,并读取权重记录下训练集和验证集的精度,便于调参2 构造验证集为什么需要验证集?深度学习训练的时候,模型是非常容易出现过拟合,即在训练阶段的loss是非常小的,但是在测试集中loss是非常大。为了提供模型的泛化能力, 我们就构建一个与测试集极可能分布一致的验证集。划分验证集的方式?留出法:直接在训练

2020-05-30 22:34:34 53

原创 task3

CNN(卷积神经网络)介绍精度和速度比传统计算学习方法高很多在计算机领域,CNN是解决图像分类,图像检索物体检测,语义分割的主流模型CNN每一层有众多的卷积核组成,每个卷积核对输入的像素进行卷积操作得到下一次输入约等于降维吧,变小了卷积神经网络(简称CNN)是一类特殊的人工神经网络,是深度学习中重要的一个分支。CNN在很多领域都表现优异,精度和速度比传统计算学习算法高很多。特别是在计算机视觉领域,CNN是解决图像分类、图像检索、物体检测和语义分割的主流模型。CNN每一层由众多的卷积核组成,每个卷

2020-05-26 23:07:10 55

原创 task2

ContentTASK0数据集不定长字符识别思路BaselineTASK1图像处理包:1) pillow:2)OpenCV数据扩增常用的数据扩增库问题:TASK0数据集图片大小不一,eg. 743524, 需要resizeTrain Dataset: 3W张图片Validation Dataset: 1W张图片Test_a Dataset: 4W张图片Json:height等list中个数与该图片中label个数相等Field Descriptiontop 左上角坐标

2020-05-23 22:21:45 34

原创 task1 赛题理解(2天)

理解赛题背景和赛题数据完成赛题报名和数据下载,理解赛题的解题思路一 赛题数据赛题来源自Google街景图像中的门牌号数据集(The Street View House Numbers Dataset, SVHN),并根据一定方式采样得到比赛数据集。数据集报名后可见并可下载,该数据来自真实场景的门牌号。训练集数据包括3W张照片,验证集数据包括1W张照片,每张照片包括颜色图像和对应的编码类别和具体位置;为了保证比赛的公平性,测试集A包括4W张照片,测试集B包括4W张照片。字段表二、评测标准评价标

2020-05-20 22:10:09 185

原创 task05卷积神经网络基础

卷积神经网络基础¶本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充、步幅、输入通道和输出通道的含义。二维卷积层本节介绍的是最常见的二维卷积层,常用于处理图像数据。二维互相关运算二维互相关(cross-correlation)运算的输入是一个二维输入数组和一个二维核(kernel)数组,输出也是一个二维数组,其中核数组通常称为卷积核或过滤器(filter)。卷积核的尺寸...

2020-02-19 20:27:09 66

原创 task04

梯度消失、梯度爆炸以及Kaggle房价预测¶梯度消失和梯度爆炸考虑到环境因素的其他问题Kaggle房价预测梯度消失和梯度爆炸深度模型有关数值稳定性的典型问题是消失(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。假设一个层数为的多层感知机的第层的权重参数为,输出层的权重参数为。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为...

2020-02-19 20:25:39 64

原创 task03过拟合、欠拟合

过拟合、欠拟合及其解决方案过拟合、欠拟合的概念权重衰减丢弃法模型选择、过拟合和欠拟合训练误差和泛化误差在解释上述现象之前,我们需要区分训练误差(training error)和泛化误差(generalization error)。通俗来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误...

2020-02-19 20:23:24 125

原创 task2 学习笔记文本预处理;语言模型;循环神经网络基础

深度学习文本语言处理1.文本预处理文本是一类序列数据,一篇文章可以看作是字符或单词的序列预处理通常包括四个步骤:1.读入文本2.分词3.建立字典,将每个词映射到一个唯一的索引(index)4.将文本从词的序列转换为索引的序列,方便输入模型其中:建立词典:词典的主要作用是将每一个词映射到一个唯一的索引号,主要构建了一个idx_to_token列表来存储所有的词,一个token_to_...

2020-02-14 19:53:54 81

原创 task1 线性回归;Softmax与分类模型、多层感知机

1.深度学习基础模型1.1线性回归模型公式中xi表示第i个样本的数据,当我们输入X为矩阵[NXD]时,W大小为[DX1],b的大小为[Nx1],这样公式计算出的结果为[NX1],参数W被称为权重(weights)。b被称为偏差向量(bias vector),这是因为它影响输出数值,但是并不和原始数据产生关联。在实际情况中,人们常常混用权重和参数这两个术语。下面是在学习Pytorch中遇到的的...

2020-02-14 19:52:52 90

原创 数组学习task1

1.利用动态数组解决数据存放问题编写一段代码,要求输入一个整数N,用动态数组A来存放2~N之间所有5或7的倍数,输出该数组。代码A=[]N=int(input(“请输入一个整数:”))for i in range(2,N):if i%50 or i % 70:A.append(i)A输入50得到:[5, 7, 10, 14, 15, 20, 21, 25, 28, 30, 35...

2020-01-07 01:50:42 24

空空如也

空空如也

空空如也
提示
确定要删除当前文章?
取消 删除