自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 论坛 (4)
  • 收藏
  • 关注

原创 复现数据增强实验(3)--Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

上一篇记录到训练了双向语言模型,时间代价太高了。已经花了很长时间了,索性把实验复现完毕。(6)# construct vocabulary on classification datasets 命令:sh construct_vocab_classification.sh结果:执行命令后,进程状态总是变成D+,无法运行解决:用sudo权限执行命令。sudo s...

2019-08-19 17:41:35 232

原创 复现数据增强实验(2)--Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

上一篇记录到第四步,接下来记录接下来的几步,目前为止没有遇到问题。(5) # train a bi-directional language model命令:python -u train.py -g 0 --train datasets/wikitext-103-raw/spacy_wikitext-103-raw.train --valid datasets/wikitext-103-r...

2019-08-19 17:28:30 380

原创 复现数据增强实验(1)--Contextual Augmentation: Data Augmentation by Words with Paradigmatic Relations

最开始知道题目中的论文,是看到BERT做数据增强的论文,Conditional BERT Contextual Augmentation,看到有同学分析的文章(见https://zhuanlan.zhihu.com/p/53141568),文章中提到了Kobayashi的这篇论文,刚好有开源的代码,作为英专毕业数年的不合格程序媛,自己写代码是不现实的,决定用开源的代码复现一下实验结果,记录以下作为...

2019-08-19 17:20:14 586

原创 几种统计字符串个数的方法

1.vim命令下统计字符串个数。vim进入文件之后,输入下面命令,可统计出该文件中targetstring的个数。:%s/targetstring//gn2.awk命令统计字符串个数。awk-v RS='(targetstring)' 'END {print --NR}' file可查询file文件中(targetstring)的数量并print出来。如

2017-11-17 10:16:59 718

原创 linux下less不乱码vi乱码

problem: linux下同一文件,less不乱码,vi和vim进去就是乱码。在root用户根目录新建一个文件:vi ~/.vimrc内容:colorscheme eveningsyn onfiletype onset encoding=utf-8set fileencoding=utf-8set fileencodings=utf-8然后在root

2017-11-07 10:37:40 1170

原创 HTMLParser错误解决

费劲巴拉写了一个爬虫程序,总算运行顺利了,结果有出现了一个HTMLParser错误,提示信息如下:HTMLParser.HTMLParseError: malformed start tag提示内容大概是说,这个不是BS的bug,如果需要解决,需要使用一个新的网页解析器lxml或者html5lib.好吧,安装html5lib或者lxml。lxml: lxml由于GCC版本的

2017-09-06 10:23:39 2170

原创 linux下head和tail命令

将某一文件中的前100行写入另一个文件。head -100 file1 > file2 (强制写入)head -100 file1 >> file2 (追加写入)head -10 file1 (在屏幕上打印文件中的前十行)tail与head相反,把末尾的100行写入文件。

2017-05-27 14:01:31 277

原创 Linux sed cat命令

将1.txt中的Hi替换成World,并在屏幕上显示出来。执行sed 's/Hi/ World/' 1.txt | cat

2017-05-24 15:47:56 447

原创 最小化Chrom时Linux端中断进程

困扰了很久的问题,每次最小化Chrom浏览器的时候,Linux端就会显示Ctrl C,进程中断,金山词霸的划词什么的都关了,还是没有用。后来试了一下IE浏览器就不会,想着可能还是Chrom中哪个运用有相似的划译开关打开了,但是除了金山词霸我也没用其他的。然后就去控制面板看安装的程序,果然有一个没有用过的词霸快译,果断卸载,然后再试一下,成功了,不出现^C了。困扰了这么久的问题,终于解决

2017-04-20 15:24:27 290

原创 显示excel最后一行

Ctrl + ↓ 可以直接到达EXCEL最后一行。1048576行。

2017-01-12 13:13:24 622

转载 Macro & Micro, P, R, F1

When dealing with multiple classes there are two possible ways of averaging these measures(i.e.recall, precision, F1-measure) , namely, macro-average and micro-average. The macro-average weights e

2017-01-11 09:40:23 524

原创 linux下显示所有符号的命令

在VIM的状态下,输入set list,可以显示出文件中所有的符号。X

2017-01-10 13:17:09 1394

原创 linux下查询文件的创建时间和访问时间

linux下输入命令行:stat filename 显示文件状态,包括访问时间,修改时间等。ls -l filename 显示文件的修改时间(创建时间)ls -ul filename 显示文件的访问时间(VIM操作时间)

2017-01-10 13:15:30 916

原创 My first Python script

print 打印内容raw_input用户输入第一个学习脚本:-----------------------------------------------------------#usr/bin/pythonprint 'hello,world'print 'The quick brown fox','jum

2017-01-10 13:11:46 215

转载 日语中“何”的读法

转:日语中疑问词"何(なん)"与"何(なに)"语法和意义上完全一样。 何的读法和后续助词助动词的辅音有关。 辅音为[n][d][t]时多读なん,如: 音楽とは何なのか(おんがくとはなんなのか)/音乐是什么?★NAおとなになったら、なんになる/长大后做什么★NIなんのためなのか/是为了什么?★NOこれなんだ/就是这个★DAこれはなんですか/这是什么?★

2017-01-10 13:09:58 931

转载 linux grep 查找制表符\t的方法

在一个文本文件中grep带有制表符的内容,之前直接grep \t无法实现。需使用以下格式,才能查找出来:grep '相关内容'$'\t''' filename如下图,直接输入制表符不争取:

2017-01-10 13:05:50 8411

转载 Windows下搜索设置

在Windows下的文件夹中搜索不到相关内容,可以更改搜索配置。位置:计算机->组织(左上角)->文件夹与搜索->搜索进行相应的设置(索引自然语言等)可以使用多个关键字进行搜索。比如:关键字 and *.txt or 关键字以上。

2017-01-10 13:04:23 397

转载 Python字符串分割命令split

line.split()对line进行分割,默认以空格分割,分割全部空格。line.split('\t',1)对line进行分割,以制表符分割,只分割第一个。line.rsplit('\t',4)对line进行分割,以制表符分割,从line的结尾往前进行分割4次。参考:http://blog.sina.com.

2017-01-10 13:03:12 8669

转载 Python比较字符串cmp

cmp(string1,string2),help后显示如下:cmp(...)    cmp(x, y) -> integer        Return negative if xy.如果字符串相等,返回0,如果x小于y,返回负值,如果x大于y,返回正值。word_split.py中涉及cmp的脚本片段:

2017-01-10 13:01:57 3954

转载 Python 中 strip函数

strip()用于移除字符串头尾指定的字符(默认为空格)语法:str.strip([chars])chars指的是移除字符串头尾指定的字符返回移除字符串头尾指定的字符生成的新字符串。实例:#!usr/bin/pythonstr=“000I LOVE PYTHON!000”print srr.strip(

2017-01-10 12:59:54 307

空空如也

Python根据字典替换字符串速度为什么超级慢-附代码

发表于 2018-05-18 最后回复 2018-05-23

python查找重复字符串并合并数据

发表于 2017-09-14 最后回复 2017-09-15

小白来求助~ Python抓取数据写入excel的问题,附上丑代码。。。 [

发表于 2017-08-30 最后回复 2017-09-13

Python批量抓取词典数据时URL地址变化怎么办?

发表于 2017-08-23 最后回复 2017-08-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除