自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 vscode 配置git 踩坑实录

首先添加了远程git remote add origin 地址 然后配置了上游仓库的连接git branch --set-upstream-to=origin/master master因为之前我在仓库新建了一个readme,本地没有,所以可能要先拉取这个文件。经历了在本地提交等操作,然后再去执行以下命令git pull --allow-unrelated-histories然后首次push执行以下命令git push --set-upstream origin mas.

2022-01-05 15:03:15 230

原创 论文笔记 A survey of Transformers

论文笔记A survey of Transformers1.介绍改进版本的各种former在如下三个方面改进了vanilla Transformer:模型效率,因为Self-Attention的时间和内存效复杂度导致其在处理长序列时效率比较低模型泛化,很难在小批量数据集上进行训练,模型迁移,将Transformer适应去特定的下游应用。提出一个新的分类,根据三个方面:模型改进、预训练、应用。2.背景:介绍架构...

2021-07-04 22:47:52 569 1

原创 Transformer-XL论文笔记

论文地址:Transformer-XL:: Attentive Language Models Beyond a Fixed-Length Context摘要Transformer具有学习长期依赖的能力,但是在语言模型的设置中,受限于固定长度的上下文。在本文,我们提出xl,能够学习超过固定长度的依赖,并且不破坏时间上的统一性。它包含一个a segment-level recurrence mechanism 以及novel position encoding scheme, 我们的方法不仅能学习更长期

2021-04-30 19:13:46 301

原创 关于pytorch sharing weights的初步思考

参数共享 李宏毅老师1.在实现universal-transformer,其中的transition function 是共享参数的。想起李宏毅老师的说法:实现共享参数,我们要给这些参数同样的初始化,然后在梯度更新的时候我们让参数值减去所有对应参数梯度的和(当然,会乘以学习率)2.那么,如果按照李老师所说,是不是意味着我们要在每一层都定义一个对象,在优化时,我们便不能使用 optimizer.step()。而是应该改变参数更新的办法。实行起来有一定困难如果我们 定义一个模块 重复使用呢3.

2021-04-22 11:59:16 983

原创 Universal Transformer 论文解读

论文出处:Universal Transformers摘要RNN一直是sequence modeling task 的主要选择。然而,固有的序列计算让它训练很慢,FCNN 和CNN架构在一些例如机器翻译在内的序列建模任务中取得了更好的结果,因为同时计算所有输入,所以并行性强,训练时间更快。然而,一些FCNN架构,例如vanilla transformer在一些简单的任务上不能处理RNN能够轻松应对的东西,例如 copy string,或者是当string长度超过训练数据集时的简单推断任务。我们提出了un

2021-04-16 09:45:52 712

原创 读取文件遇到的坑

1.使用相对路径读取文件,但是文件首字母是t,这样的话直接变成了转义字符:\t,解决办法:f = codecs.open(r'test.txt', 'r', 'utf-8')加上’r’2.文件是用txt读取的,但是文件是用utf-8编码的,所以我们需要制定文件读取的编码。解决办法:import codecsf = codecs.open(r'test.txt', 'r', 'utf-8')3 有时候盲目的使用try-except文件,就会错失很多报错信息。所以要善用.解决办法:impo

2021-04-02 14:56:35 173

原创 Named Entity Recognition for Chinese Social Media with Jointly Trained Embedding 笔记

摘要中文NER主要针对正式文本,对于社交媒体的NER主要在英语上,本文标注了一个新的微博数据集,标注有名称和一些名词性提及1.介绍一个中文NER 传统是利用lexical embedding来提高NER性能,然而不像其他语言,我们不能使用自动分词来为中文单词赋值一个Embedding,这是不可信的,所以中文NER model都tag word2.NER for Chinese Social Media社交媒体的不正式性很明显对NLP系统造成了重大的困难,例如拼写错误,新颖的词以及非语法构造。中文也

2021-03-29 20:45:23 333

原创 Chinese NER Using Lattice LSTM笔记

摘要使用lstm 编码字符和潜在的lexicon,相比于character-based model ,更能利用单词信息,相比于word-based,更不易遭受分词的错误

2021-03-12 20:11:54 236

原创 A Survey on Deep Learning for Named Entity Recognition 札记

1.NER 进化早期 ner :需要很多的human effort 来指定规则和特征(1)什么是 NER有两种主张:serving as a name for something or someoneproper names and natural kind terms like biological speciesand substances.不论如何,现在主要把NER 划分为general NE ,domain-specific NE(2) DL 中的 NER需要最少的

2021-03-07 16:20:04 297 1

原创 transformer之代码借鉴

我也不知道为什么要看别人写的代码,我并没有碰到问题,我只是觉得自己的知识和代码架构能力以及那种在码代码时候的一种直觉少了许多,所以要看一些别人的代码,在看的时候不能浅尝辄止,借鉴api,借鉴一些类库,借鉴一些架构的方式,看看别人的思路。1.预处理(1)文件读取源文件为txt 文件,使用python内置的open 函数打开文件,然后读取,并进行划分为list. opt.src_data = open(opt.src_data).read().strip().split('\n')(2)分词使.

2021-03-05 15:39:26 434 1

原创 java 堆站 jdk简介

堆 :存放new出来的东西的属性和方法区的地址方法区:加载类的class栈:用来存放局部变量局部变量和成员变量:局部变量没有初始值,保存在栈,作用于方法内部成员变量:有初始值,保存在堆中,作用于类内部什么是 jdk jvm jrejdk:开发工具包jre:java运行环境jvm:java虚拟机,实现java跨平台的核心jdk 包含 jre,jre包含jvmjava程序运行过程:java程序通过javac编译为class文件通过类加载器去加载class文件通过java命令去运行

2021-01-31 16:11:37 163

原创 jQuery -- Ajax

异步同步:发请求 服务器响应过来我才能继续往下做异步: 发请求 甭管服务器响应我都可以继续往下做无刷新点击< a >标签或者表单,网页不会进行刷新例:是我们玩微信朋友圈的时候,点个赞我们的页面并没有刷新或者是当我们刷微博点击更多,并没有跳转页面,并没有回到最开始的那个页面百度查询,输入关键词下面有很多匹配,网页并没有刷优点不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页内容XMLHttpRequest...

2021-01-31 14:12:01 102 1

原创 jQuery多选框

CSS为什么要使用通配符设置padding 和margin ,因为很多标签自带了内边距和外边距,我们需要把这些标签自带的内边距和外边距清空margin: 0 auto 为了让块元素左右居中jQuery切换元素的空间状态,如果元素是可见...

2021-01-30 16:51:51 843

原创 Seq2Seq - Attention(代码私戳)

初级版本模型:模型组成:Encoder:对当前batch生成context vector,以及对应各个时刻的 encoder_outputDecoder对于当前attention,以及上一时刻输出的词向量,拼接后放入decoder rnn中,生成下一个隐状态以及当前预测的输出Attention对于 decoder 的hidden_state, 对于当前batch 各个时刻的encoder output 生成attention,返回(batch_size, seq_len)Seq2Seq因

2020-12-29 15:39:48 160

原创 web前端 HTML+CSS系列(2)于 2020.9.11

H5表单标签,与浏览器交互网站这么与服务器端交互,答案是使用html 中的表单< form>< form method = " post/ get " action = " 服务器端文件">,所有表单控件都必须放在 两个 form标签之间1、文本输入框、密码输入框 为初始值(1)当type为pasword 为密码输入框 name 供后台程序备用,value设置默认值(2)placeholder属性为输入框占位符,里面存放提示的输入信息,并不是输入的真正信息(3)当typ

2020-09-11 21:48:26 94

原创 web前端 HTML+CSS系列(1)于 2020.9.11

学习到的各种标签1、p标签,段前段后都会有空白,可以用css样式来改变空白2、span标签,没有语义,为了设置单独的样式使用3、h1-h6标签,设置标题,并且大小逐渐减小4、div标签,网页制作中,把独立的逻辑部分放在div标签中5、(1)header 只是告诉你我是个头部,其实本质上还是个 div,但是具备语义化(2)footer代表底部,本质上为div,但是具备语义化‘(3)section代表一个区域,本质上等于div,具备语义化(4)aside代表一个侧边栏区域,本质上等同

2020-09-11 20:33:17 83

原创 ccf -csp 202006-3 markdown渲染器

只做了段落的,等有时间再来做项目列表的!呜呜呜好难呀!#include <iostream>#include<string>using namespace std; string& trim(string& s){ if(s.empty()) { return s; } s.erase(0,s.find_first_not_of(" ")); if(s.empty()) { return s; } s.erase(s.find_las

2020-08-06 21:24:07 667

原创 csp 2020-06-01 线性分类器

csp 2020-06-01 线性分类器#include<iostream>using namespace std;struct node{ int x; int y; char type;};struct line{ int a; int b; int c;};int main(){ int n; int m; cin>>n>>m; struct node nz[n]; struct line lz[m]; for( int i =

2020-08-05 22:13:44 380 2

原创 201609-2满分实验-csp(C语言)

问题描述请实现一个铁路购票系统的简单座位分配算法,来处理一节车厢的座位分配。假设一节车厢有20排、每一排5个座位。为方便起见,我们用1到100来给所有的座位编号,第一排是1到5号,第二排是6到10号,依次类推,第20排是96到100号。购票时,一个人可能购一张或多张票,最多不超过5张。如果这几张票可以安排在同一排编号相邻的座位,则应该安排在编号最小的相邻座位。否则应该安排在编号最小的几个空座位中(不考虑是否相邻)。假设初始时车票全部未被购买,现在给了一些购票指令,请你处理这些指令。输入格式输入的

2020-05-11 16:48:06 578

原创 csp消除类游戏

问题描述  消除类游戏是深受大众欢迎的一种游戏,游戏在一个包含有n行m列的游戏棋盘上进行,棋盘的每一行每一列的方格上放着一个有颜色的棋子,当一行或一列上有连续三个或更多的相同颜色的棋子时,这些棋子都被消除。当有多处可以被消除时,这些地方的棋子将同时被消除。  现在给你一个n行m列的棋盘,棋盘中的每一个方格上有一个棋子,请给出经过一次消除后的棋盘。  请注意:一个棋子可能在某一行和某一列同时被消除。输入格式  输入的第一行包含两个整数n, m,用空格分隔,分别表示棋盘的行数和列数。  接下来n行,

2020-05-10 12:02:02 327

原创 图像旋转 201503-1 csp

#include<stdio.h>int main(){ int n,m;// n为行数,m为列数 scanf("%d %d",&n,&m); int a[n][m]; for(int i=0;i<n;i++){ for(int j=0;j<m;j++){ scanf("%d",&a[i][j]); } } int b[m][n]; for(int i=0;i<m;i++){ for(int j=0;j&l

2020-05-09 17:27:42 66

原创 Z字形扫描

问题描述在图像编码的算法中,需要将一个给定的方形矩阵进行Z字形扫描(Zigzag Scan)。给定一个n×n的矩阵,Z字形扫描的过程如下图所示:对于下面的4×4的矩阵,1 5 3 93 7 5 69 4 6 47 3 1 3对其进行Z字形扫描后得到长度为16的序列:1 5 3 9 7 3 9 5 4 7 3 6 6 4 1 3请实现一个Z字形扫描的程序,给定一个n×n的矩阵,输出...

2020-05-05 09:27:32 447 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除