自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

薰珞婷紫小亭子的博客

志在大家一起互相交流、学习

  • 博客(403)
  • 资源 (6)
  • 收藏
  • 关注

原创 Levenshtein python调用

一般来说,编辑的距离越小,两个字符的相似度越大。不难分析出,两个字符串的编辑距离肯定不超过它们的最大长度(可以通过先把短串的每一位都修改成长串对应位置的字符,然后插入长串中的剩下字符)。Levenshtein距离又称作编辑距离(Edit Distance),是指两个字符之间,由一个字符转变成另一个字符所需的最少编辑操作次数。注: 在导包的时候,是pip install python-Levenshtein, 而不是pip install Levenshtein。替换,将一个字符替换成另一个字符。

2023-08-17 11:01:10 443

原创 各种PLM 参数量大小

目录t5参数量: mt5参数量:参考链接:reference 下载地址:https://huggingface.co/t5-base/tree/main参考链接:reference下载地址:https://huggingface.co/google/mt5-base

2023-08-15 16:19:47 2726 2

原创 docker 基础知识

docker基础知识

2023-08-15 11:08:25 461

原创 如何读取文件夹内的诸多文件,并选择性的保留部分文件

当前有一个二级文件夹,第一层是文件夹名称是“Papers(LNAI14302-14304)",第二级文件夹目录名称如下图蓝色部分所示。第三层为存放的文件,如下下图所示,每一个文件中,均存放三个文件,分别为copyright.pdf, submission.pdf, source.zip.如何python实现,读取三层目录下的文件内容,并且将最里面一层目录中的“submission.pdf"筛选,并保存。python实现读取文件夹内的内容,并筛选部分内容,写入到另外一个文件夹中。

2023-08-15 09:50:00 218

原创 CondaValueError: Malformed version string ‘~‘: invalid character(s).

执行如下命令之后,再执行上面的命令,错误便会解决。

2023-08-15 09:38:07 4954 3

原创 如何解决docker中出现的“bash: vim: command not found”

在docker中,想要执行vim编辑文件,弹出“docker bash: vim: command not found“(如下图),请问该如何解决?再执行vim命令,便不会报错。

2023-08-14 21:37:15 674

原创 shutil.copy()与shutil.copy2()有什么区别?

在复制文件的时候,经常会使用到shutil.copy()函数,今天问ChatGPT老师,给出了shutil.copy2()函数。百度发现,两者还是有一定的区别的。举个例子,如果你需要将一个文件从一个目录复制到另一个目录,同时保留文件的修改时间等元数据,你可以使用。~~以下内容均来自于ChatGPT的回答~~如果你只关心文件的内容,可以使用。都是 Python 标准库。都是 Python 标准库。

2023-08-13 10:42:52 2130 1

原创 NLPCC 出版部分相关源码记录

NLPCC 出版部分相关源码记录

2023-08-05 22:11:11 801

原创 python批量检查folder中的文件是否符合要求

python批量检查folder中的文件是否符合要求。 NLPCC

2023-08-05 21:35:01 309

原创 Camera-COQE multi-comparions

【代码】Camera-COQE multi-comparions。

2023-07-30 23:17:08 101

原创 如何解决使用Elsivier默认latex模板,显示多位作者名字而不是et.al形式

如何解决使用Elsivier默认latex模板,显示多位作者名字而不是et.al形式

2023-07-28 16:35:46 1267 1

原创 给定英文文本,怎样以单词,标点符号等为分隔单位,以空格分隔开来。

英文是以空格为分隔符进行划分,但是标点符号等其他字符与英文单词之间并没用分隔开来。若想实现英文文本以单词或标点符号等特殊字符为分隔单位,定义一个函数process_sentence(),输入待处理的文本sentence,得到处理之后的sentence'

2023-07-10 21:21:31 294

原创 Linux删除文件夹时,报错“Error: EBUSY:resource busy or locked, unlink……”该如何解决?

Linux删除文件夹时,报错“Error: EBUSY:resource busy or locked, unlink……”该如何解决?

2023-07-01 17:39:28 2342 2

原创 如何使用wordnet词典,得到英文句子的同义句

如何使用wordnet词典,得到英文句子的同义句

2023-06-28 14:16:59 398

原创 Overleaf表格过长或过短怎样设置合适长度

使用下面的命令 "\scalebox",通过调整0.8数字,可以帮助你将表格调整到合适的宽度,在使用overleaf写论文的时候,经常会出现表格长度不符合自己的预期,不是过短就是过长。

2023-06-05 14:17:10 4136

原创 python:实现将英文单词,标点符号等,以空格拆分

将英文以单一单词为单位,以空格划分单词。

2023-05-12 10:24:21 1336 1

原创 小白入门之args, *args, **kwargs

小白入门之args, *args, **kwargs

2023-04-27 20:03:10 2779 2

原创 给定英文text,以及span,判断span是否在text,若在返回start /end index,从1开始计数,如果不在,则返回0,0

【代码】给定英文text,以及span,判断span是否在text,若在返回start /end index,从1开始计数,如果不在,则返回0,0。

2023-04-17 20:28:38 112

原创 linux如何查看当前虚拟环境中使用的所有的包,并快速安装到另一个虚拟环境中

这将会在项目目录下生成一个名为 requirements.txt 的文件,其中包含了项目中需要的所有package名称及其版本号。

2023-04-12 22:12:02 2235

原创 如何使用spacy工具包,实现依据依存关系结果,对英文句子构建矩阵图

如何使用spacy工具包,实现依据依存关系结果,对英文句子构建矩阵图

2023-04-12 17:49:08 335

原创 若一个单词被拆分成多少token, word_ids得到的序号是相同的?还是序号累加的?

在使用tokenizer进行编码的时候,经常会存在word被拆分成多个token的情况,不同的参数设置,会得到不同的结果。总的来说,得到的word_ids会有两种,一种是每一个子token是相同的序号;可以看出,tokenizer对text进行了分词处理,但word_ids()的序号是一次累加的,单纯的从word_ids()结果来看,并不能知道哪个单词被拆分了。同一个word的序号是相同的,通过word_ids()序号,就可以定位到被拆分的单词。根据自己的需求,使用不同的方法,下面是两种具体的方法。

2023-04-09 00:37:55 719

原创 token.pos_和token.tag_分别表示什么意思?

token.pos_和token.tag_分别表示什么意思?

2023-04-08 23:52:05 385

原创 如何使用spacy工具包实现词性标注

如何使用spacy工具包实现词性标注

2023-04-08 21:48:00 1140

原创 关于Stanza工具包的使用

stanza工具包的使用

2023-03-30 15:45:53 1633

原创 python实现将句法解析结果,按照要求存入json文件

python pos, dependency

2023-03-29 21:10:49 209

原创 在中文zh_core_web_sm-2.3.1和英文en_core_web_sm 中,token_pos 实际上分别各有多少个标签?

对Spacy工具包中的token.pos词性标签进行说明

2023-03-28 13:28:35 457

原创 Spacy中 token.dep_中的58个标签的含义

如果有用逗号隔开的,以第一个逗号为分界线,后面的是new bing给出的解释,前面是ChatGPT给出的解释。如果没有逗号隔开,则表示两种解释没有多大差别。

2023-03-28 13:09:50 611

原创 spacy工具包如何使用?需要安装哪些包?

初学者,如何使用Spacy工具包,实现对文本的解析。

2023-03-28 11:14:18 997

原创 python 如何比较两个文件中的内容是否完全相同

python如何比较两个文件中的内容是否完全相同

2023-03-25 19:04:22 1795 1

原创 latex如何在保证不更改.cls的前提下,更改一段文字的对齐方式,如发散对齐,左对齐,右对齐等

latex如何在保证不更改.cls的前提下,更改一段文字的对齐方式,如发散对齐,左对齐,右对齐等

2023-03-14 19:51:28 2738 1

原创 运行报错:“RuntimeError: “host_softmax“ not implemented for ‘Long‘”

RuntimeError: "host_softmax" not implemented for 'Long'

2023-03-13 20:52:12 3331

原创 迁移学习知识点

迁移学习

2023-02-24 15:45:31 194

原创 论文写作可以参考的Things~

写作神器

2023-02-11 10:42:33 219

原创 numpy中的np.linalg.det()函数

numpy中的np.linalg.det()函数

2023-02-09 22:30:18 1090

原创 Latex合并单元格并文字居中

latex合并单元格并文字居中显示

2023-02-01 20:47:14 4559

原创 双栏Latex模板插入多个图片的各种排布

latex中图片排布问题

2023-02-01 16:41:04 9000

原创 Latex特殊符号大全

latex特殊符号大全

2023-01-28 14:11:11 1998

原创 Latex中,边界越界怎样处理?

Latex中,边界越界怎样处理?

2022-12-30 18:33:31 6595 1

原创 如何依据spacy工具包实现对中文文本构建邻接矩阵

如何依据spacy工具包实现对中文文本构建邻接矩阵

2022-12-20 00:27:23 395

原创 如何利用spacy获取一个句子可视化的依存关系图

如何利用spacy获取一个句子可视化的依存关系图

2022-12-17 17:24:30 680

Excel2LaTex.xla

一个可以将Office EXCEL中的表格转换成LaTex的插件

2022-04-09

199801已标记词性.txt

该资源是以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。

2020-11-17

Fudanchinese_text_classification.rar

最近在学习中文的文本分类,网上找了复旦语料集,很多都要C币(我自己也是花了很多币下载的)。把此语料集低币上传,供需要的人下载。希望可以帮助到你们。

2019-12-23

mnist_10k_sprite.png.rar

想要将该资源免费共享,可是不知道怎么将币数修改为0 ,有需要的私聊我,我免费发给你。赠人玫瑰,手有余香。

2019-06-14

MNIST_data.rar

MNIST_data数据集,亲测有效,需要的可以下载,我的博客里面也有对应的程序,希望可以帮助到你。

2019-06-14

互联网软件应用于开发课件

2012年版本,杨云的互联网软件应用于开发大部分章节的课件,网上这部分的资源还是比较匮乏的。这本书一般是成人教育的课本。

2018-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除