小新的学习笔记
文章平均质量分 73
ac不知深
伟大是熬出来的
展开
-
辨析读写json文件常用json.loads()、json.load()和json.dumps()、json.dump()区别及ensure_ascii参数
一句话概括json . loads 接受字符串json . load 接受文件对象json . dumps 输出为字符串json . dump 输出到文件。原创 2023-05-24 15:55:32 · 1321 阅读 · 0 评论 -
python 读写 json,csv,txt,docx,xlsx,xls文件大全
最近再处理数据的时候,总会用到读写json,csv,xlsx和xls文件代码这里就做个总结记录一下。原创 2023-05-22 15:52:10 · 1803 阅读 · 0 评论 -
查找Pycharm跑代码下载模型存放位置以及有关模型下载小技巧(model_name_or_path参数)
当服务器连不上,只能在本地跑代码时需要使用***预训练语言模型进行处理免不了需要把模型下载到本地时间一长就会发现C盘容量不够。原创 2023-03-10 13:26:09 · 2733 阅读 · 1 评论 -
从创建文件开始,使用git clone方式把代码上传到服务器上,并配置好环境(Pycharm远程连接服务器来跑代码第二种方式)
本文是在这篇[关于git clone http://xxxxxxxxxxx报错的问题]基础上,扩展把代码放到服务器上运行想知道为什么使用git clone报错的同学可以去瞅瞅。原创 2022-10-22 14:24:20 · 2195 阅读 · 0 评论 -
C++中或运算符(||)执行的逻辑及顺序
当使用或运算符时或运算符左边为True,则不进行右边的判断。只要有一个为True,则整体为True以此类推,多个或运算符依然适用。原创 2022-09-16 11:03:27 · 3341 阅读 · 0 评论 -
NLP论文中出现的名词解释(二)(不断更新)
假如:“我爱北京天安门”和“我不爱北京天安门”是相似样本,那么学习过程中就学习不到语义的相关信息,学习的就是字面上的特征;“我爱北京天安门”和“我不爱北京天安门”是不相似样本,那么学习过程中就可以学习到否定方面的语义信息;原创 2022-09-15 15:49:26 · 2098 阅读 · 0 评论 -
ssh远程连接报错:WARNING: POSSIBLE DNS SPOOFING DETECTED(已解决)
使用ssh连接服务器的时候,一般会填写一个是否信任本地机器的选项即(yes/no),写了yes就代表着服务器已经信任了你的电脑,以后可以直接链接因为换了台服务器,之前的内容也都已经迁移过去但是在连接新的服务器时出现了以下报错图片版:文字版:@原创 2022-09-14 09:22:45 · 1855 阅读 · 0 评论 -
A sequence-to-sequence approach for document-level relation extraction
我们开发了一种序列对序列的方法seq2rel,它可以学习DocRE(实体提取、共同引用解析和关系提取)的端到端子任务,取代了任务特定组件的管道。我们使用一种称为实体暗示的简单策略,将我们的方法与几种流行的生物医学数据集上现有的基于管道的方法进行比较,在某些情况下性能超过了它们。在本文中,我们主要关注的情况是,E没有给出,必须由一个模型预测,我们将其称为“端到端”。编码器将输入中的每个标记映射到上下文嵌入。自回归解码器生成一个一个标记的输出,关注编码器在每个时间步的输出(图2)。原创 2022-09-13 19:04:52 · 590 阅读 · 2 评论 -
C/C++代码无误前提下,出现运行框无法输入并自动结束程序及闪退问题
今天codeblocks里写C++程序用自己的想法写出了,大概内容和书本上都一致不论怎么运行都无法输入并出现自动结束程序如下图情况先附上闪退的代码再仔细和书本对照发现了问题我使用数组A是定义在main函数里面定义的的而书本是把数组A放到全局变量下定义于是按照书本上的方式把数组A移到外面这样在执行就可以正常输入输出了。原创 2022-08-21 15:53:50 · 3675 阅读 · 7 评论 -
牛客刷题系列(C++)——详解MGJ8 链表合并(目前内存开销最小)
那么当list2遍历结束时,应该把list1剩下部分的数据直接放入list3中。那么当list1遍历结束时,应该把list2剩下部分的数据直接放入list3中。以上两种情况都需要注意在传递到list3中,其指针得指向情况。所以很容易的就忽略了两个链表长度不相同的测试数据。这是一道很简单的合并两个有序链表的题目。如果 list1 长度大于 list2。这里给的测试数据是两个链表长度相同。这部分直接上代码,写上详细的注释。我的思路是先创建两个链表。用于保存合并之后的链表。程序输出结果没有问题。原创 2022-08-20 12:13:13 · 357 阅读 · 0 评论 -
解决服务器长时间跑代码出现自动断连的问题(推荐使用screen)
在好不容易跑通了代码的前提下愉快的跑了15个小时结果刚刚出现了自动断开连接服务器的情况出现尽管程序还在进行中导师推荐了使用nohup和screen两种方法解决此问题但是我查询了nohup的用法发现好像大多数是需要root权限但是在服务器上跑学生没有root权限又不想周末打扰老师所以直接转用screen方法使用screen创建一个新的会话:(KD是我起的名字,可以随意更改)会清空之前的命令行然后开始打开环境,跑代码然后我关掉了ssh,尝试着看看后天有没有继续接着跑(这一步可以不做)连接上服务器,会变回原创 2022-07-10 10:15:47 · 3234 阅读 · 1 评论 -
Pycharm远程连接服务器来跑代码
点击pycharm左上角的file,找到python interpreter,点击右边的设置(长得像齿轮那个),然后找到SSH interpreter填写服务器的地址和你服务器上的名字大家在进行第7步时,一定要注意下你的username和host别填反了确认开始连接如果不知道虚拟环境怎么创建可以参考我这篇文章第11步的Interpreter开始选择你创建虚拟环境下的编辑器第12步的sync folders需要填写你想把项目上传至服务器哪个位置(建议是提前创建好新的文件夹内),完成直接finish配置好原创 2022-06-25 18:06:25 · 23569 阅读 · 16 评论 -
服务器创建虚拟环境跑代码
最近忙着在服务器上跑代码学习积累了一些经验技巧这里用来记录分享给大家下面我会以一个实例为模板,学习完之后,再删掉不会占用大家的服务器比如我的连接方式为:ssh -p 你的编号 username-host这里我以一篇代码为例创建虚拟环境3、进入虚拟环境如果速度有些慢的话可以考虑更换清华源5、安装PyTorch这里给大家提供两种方式安装两者都可以,但是一定要确认好你的版本号官网在这里这里读者注意一下,如果三方库后面没有加上版本号会默认为安装最新版本如果已经安装过了其他版本可以考虑再次安装指定原创 2022-06-25 17:28:15 · 5357 阅读 · 2 评论 -
NumPy学习笔记(六)——sum()函数
在元素(数组)累加的时候,可以使用此函数进行累加,非常方便我们先来看一下全部的参数sum(a, axis, dtype, out, keepdims, initial, where)第一个参数是是传入/输入的数组元素沿轴使用(可选填,默认为数组的展平成一维形式,即0,1,2,3,4…等)aixs为0与1时的方向如图所示上个代码小例子3)dtype(可选)默认为:numpy.float64我们也可以进行修改比如我们常用的dtype = numpy.int32具体使用整数类型或者精度要根据情况来选择比如有关原创 2022-06-22 12:27:07 · 1937 阅读 · 0 评论 -
pycharm编辑器远程连接服务器(不废话+废话版)
给大家直接使用pycharm远程连接服务器跑代码原创 2022-06-17 10:31:24 · 149 阅读 · 0 评论 -
使用五数概括法来确定数据集中的孤立点
在数据挖掘中,离不开数据集的问题数据预处理我们会找到数据集中的孤立点然后抛弃那么怎么找到这些孤立点呢?根据方法名称就知道会有五个有关参数大家应该还记得统计学中的正太分布吗?对就是下面这样图正态分布代表了自然界中的太多规律数据集中的数据分布也是如此如果数据集中的数据越靠近中心位置那么该数据集用于研究的效果更好这里我们介绍四分位距(IQR,我更喜欢叫做四分位数差)即IQR = Q3 - Q1IQR的值越大表明数据集中的数据越分散IQR的值越小表明数据集中的数据越靠近中位数因为Q3与Q1与极值点(极大极小值)无原创 2022-06-06 20:03:55 · 1329 阅读 · 0 评论 -
NumPy学习笔记(五)—— choice()函数
目录一、前言二、函数讲解1、choice()函数2、参数讲解1) a① 如果是数组的话② 如果是int类型的话2)size(可选)① 如果不填② 如果填写(m,n,k)3)replace(可选)① 如果是True② 如果是Fasle4)p(可选,全称:probability)5)返回值3、出错时可能的情况扩展一、前言今天在写神经网络里,使用minibatch抽取部分数据使用到了choice函数二、函数讲解1、choice()函数老样子,先给大家上张官网的介绍英文版:中文版:choice(原创 2022-05-18 22:35:18 · 3714 阅读 · 0 评论 -
NumPy学习笔记(四)—— argmax()函数
目录一、前言二、函数讲解1、argmax()函数2、参数1)a2)axis(可选)3)out(可选)3、返回值4、注意一、前言在数组里查找相同元素,返回索引的时候用到了该函数二、函数讲解1、argmax()函数老样子,我们先看看该函数下包含了哪些参数与返回值英文版:中文版:argmax(a, axis=None, out=None)2、参数1)a我们使用的(输入)数组2)axis(可选)沿轴使用(可选填,默认为数组的展平成一维形式,即0,1,2,3,4…等)如果是沿着0轴,则返原创 2022-05-16 14:00:26 · 20443 阅读 · 0 评论 -
浅谈np.ndim与np.shape的一个小例子
目录前言一维数组ndim:shape:多维数组一个小思考前言在构建神经网络里对一个小例子产生了兴趣一维数组我们简单的写个例子import numpy as npA = np.array([1,2,3,4])print(np.ndim(A))# 1print(A.shape)# (4,)这里对于ndim与shape分别做个解释:ndim:即数组的维数shape:即数组的形状(维度),返回类型元组这里我们注意到此时的A的ndim返回值是1,代表着1维A的shape原创 2022-05-14 14:39:54 · 1805 阅读 · 0 评论 -
解读《Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation》论文
对于本论文我把所有内容重新排版了,加上自己更直白的话来直观介绍。如果对于文章里的名词解释有疑惑,可以参考我这篇文章一、工作:首先,我们使用轴向注意模块学习实体对之间的相互依赖关系,提高了两跳关系的性能。其次,我们提出了一个自适应的局部损失来解决DocRE的类不平衡问题。最后,我们利用知识蒸馏来克服人工标注数据与远程监督数据之间的差异。首先,为了改进两跳关系的推理,我们提出使用轴向注意模块作为特征提取器。此模块使我们能够关注两跳逻辑路径内的元素,并捕获关系三元组之间的相互依赖关系。其次,我们提出自适应原创 2022-05-09 21:43:39 · 1235 阅读 · 11 评论 -
谈谈我对NLP文档级关系抽取中Ign_F1指标的理解(Ign_F1与F1的关系)
因为Ign_F1这个参数网上所解释的内容都是一致的,并且不太好理解于是我就特地请教了YX师兄这里特地感谢1107实验室YX师兄F1分数F1为精确率和召回率的调和平均数(为下部分做准备)对于查全率,查准率,还有召回值就不过多介绍了Ign_F1我看网上所有的解释都是:表示在训练集、验证集和测试集中不包含关系事实的F1分数。那么我通俗的给大家白话一下:解释Ign_F1还是需要与DocRED数据集相结合DocRED数据集包含3,053/1,000/1,000个实例,对应训练/验证/测试在30原创 2022-05-07 23:08:19 · 984 阅读 · 1 评论 -
NLP论文中出现的名词解释(不断更新)
目录前言Distantly supervised (远程监督)Axial Attention(轴向注意力)Focal Loss(局部损失函数)Knowledge Distillation(知识蒸馏)soft labels(软标签)hard labels(硬标签)distant labels(远距离标签)positive sample(正样本)negative sample(负样本)前言因为每次看论文遇到新的名词查了很久,好不容易找到/总结出其意思过了很久记不清,或者笔记本找不到于是就想着写在这里当做原创 2022-04-28 15:47:49 · 2603 阅读 · 4 评论 -
torch中permute()函数用法补充内容(矩阵维度变化详细过程)
目录一、前言二、举例解释解释部分1、permute(0,1,2)2、permute(0,1,2) ⇒ permute(0,2,1)3、permute(0,2,1) ⇒ permute(1,0,2)4、permute(1,0,2) ⇒ permute(0,2,1)三、写在最后一、前言之前写了篇torch中permute()函数用法文章,没想到收藏和点赞还挺多的那我就在详细的说一下permute函数里维度变化的详细过程注意:本文是这篇torch中permute()函数用法文章的补充内容如果有精力可以原创 2022-04-18 16:39:01 · 4716 阅读 · 5 评论 -
python中import和from...import...有关头文件的使用方法及工作原理
目录一、前言二、import 工作原理1、import 执行过程2、import 执行失败3、import 执行成功三、from...import... 工作原理1、from...import... 执行流程2、from...import * 补充说明3、from . import mod 补充说明一、前言今天在看复刻transformer代码时突然对import头文件有了想法。于是就查找官方手册学习并记录下来。二、import 工作原理1、import 执行过程基本的 import 语句(原创 2022-04-02 16:24:45 · 2191 阅读 · 0 评论 -
NumPy学习笔记(一)—— argsort()函数
一、前言最近写NLP有关代码,总会使用NumPy中的知识。索性开个新专栏,用于记录改三方库下的学习积累。二、官方文档三、一言以蔽之参数:a:传入的待排序数组axis(int型,可选填)把第axis轴对数组进行排序。默认为-1,为最后一个轴。如果没有该参数,则展平数组a。重点维数axis=-1时所代表的轴一维数组只有0轴0轴二维数组有0、1轴1轴······递推:N维数组有[0,N-1]个轴N-1轴kind使用kind=‘quick原创 2022-03-21 22:19:59 · 1195 阅读 · 0 评论 -
NumPy学习笔记(三)—— random.randn()函数
一、官网开发手册二、参数讲解此函数比较简单,只有一种类型参数d0,d1,d2、、、dn(可选填)从d0到dn表示想要输出多少维度的数组,所以此参数不能为负数如果此参数没有,默认为单个python浮点数返回值:ndarray或者浮点数得到的数据是来自标准正太分布里的浮点样本数(d0,d1…dn)的数组如果使用时没有参数限定,则返回单个浮点数三、代码案例print(np.random.randn())# -1.2255531526822836print(np.random.randn原创 2022-03-29 11:15:19 · 5544 阅读 · 0 评论 -
NumPy学习笔记(二)—— zeros_like()函数(包含zeros函数)
目录一、前言1、zeros()函数2、一言以蔽之参数1)shape:使用int型或者元组类型的数组2)dtype:数据类型(可选填,默认为numpy.float64)3)order:内存中的存储方式(可选填,默认为'C'存储/默认行优先存储)4)*5)like:传入array_like(可选填,1.20.0新添加的功能)返回值:ndarray3、简单代码二、zeros_like()函数1、一言以蔽之参数:1)a:array_like2)dtype:覆盖结果的数据类型(可选填)3)order:覆盖结果的内存布原创 2022-03-24 22:58:35 · 22784 阅读 · 7 评论 -
百度搜索(URL)中汉字转为什么编码问题
小惑有观察最近在做有关爬虫的东西,拿百度练手,在定向爬虫发现百度的搜索链接中有个很有意思的情况。众所周知,百度首页的链接为 https://www.baidu.com/。假定我们搜索迪丽热巴,网页的URL变为复制该链接再粘贴是,会发现搜索关键词’迪丽热巴’变为’%E8%BF%AA%E4%B8%BD%E7%83%AD%E5%B7%B4’那么这个网址是怎么变化的了?https://w...原创 2020-03-18 11:44:45 · 1849 阅读 · 0 评论 -
谈谈全自动安装常使用的pip install的原理及作用!!!
这里写自定义目录标题官方对于pip的说明欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导...原创 2020-04-11 17:07:30 · 37375 阅读 · 1 评论 -
草稿箱
存储单元:每个存储单元存放一串二进制代码存储字:存储单元中二进制代码的组合(00、01、10、11)存储字长:存储单元中二进制代码的位数存储元:存储二进制的电子原件,每个人存储元可存1bit一般来说所学的计算机为一个字节为8位即1B = 8bit...原创 2021-01-21 10:55:24 · 316 阅读 · 0 评论 -
Python里Matplotlib的pyplot模块绘制简单图形小例子
使用matplotlib的pyplot模块绘制图形,对于plt.legend()使用参数有了些疑惑,现在记录下。下面是个简单小例子import numpy as npimport matplotlib.pyplot as pltx = np.arange(0,6,0.1)y1 = np.sin(x)y2 = np.cos(x)plt.plot(x,y1,label = "sin")plt.plot(x,y2,linestyle = "--",label = "cos")plt.xl原创 2022-03-16 19:42:43 · 928 阅读 · 0 评论 -
python中字符串转元组时的小技巧
目录一、问题引入功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入一、问题引入最近在做问答系统项目时,发现一个很有意思的小问题。我把txt里的内容读取出来,以元组对形式保存在列表中统一格式,然后再保存到sqlite3里。txt原创 2022-03-04 09:25:23 · 5970 阅读 · 5 评论 -
pycharm中安装三方库和cmd下载三方库的选择与区别
一、前言学习python的同学难免会在cmd中使用pip/conda install方式下载三方库来完善自己的IDE。但是在cmd中经常会出现安装错误,或者受网络影响导致安装失败的情况。一次又一次,环境没配好,自己的心态就搞炸了。同时,大家在cmd中基本都是在C所以接下来给大家推荐一个使用pycharm安装三方库的方法,很大程度上缓解了受网络影响的下载失败。但是这种方法也有不好的地方。二、pycharm安装三方库方法1、首先打开pycharm,新建或者选一个已有的项目打开。找到右下角位置2、原创 2021-12-30 16:33:44 · 3330 阅读 · 0 评论 -
torch中permute()函数用法
前言:本文只讨论二维三维中的permute用法最近的Attention学习中的一个permute函数让我不理解这个光说太抽象我就结合代码与图片解释一下首先创建一个三维数组小实例import torchx = torch.linspace(1, 30, steps=30).view(3,2,5) # 设置一个三维数组print(x)print(x.size()) # 查看数组的维数这里为了防止出现维数数值相同的巧合局面(例如三维数组(3,3,3)或者(2,4,4)等)输出原创 2021-10-18 20:12:30 · 46845 阅读 · 11 评论 -
机器学习作业之波士顿房价(boston)数据分析与绘图(注释我都写了这么多,我不信你还看不懂?)
目录一、前言二、简单介绍头文件1、sklearn头文件意外2、其他头文件三、题目理解1、题目的简单介绍2、属性标签3、降维比喻四、代码1、代码及注释2、代码缺点一、前言看我前几篇文章的小伙伴都知道,最近一直在学习机器学习相关内容学校里也开了这门课,有个很经典的作业就是利用机器学习知识预测波士顿房价网上也有非常多相关介绍,但是一个个函数及参数我是真的不明白啥意思索性干脆就自己学完写一个初学者也能很好上手的代码不过还是需要对读者提些要求:1、需要简单了解python基础知识2、会简单使用pyc原创 2021-10-10 15:23:32 · 6243 阅读 · 2 评论 -
关于python随机抽取各类型不重复值的思考(sample与randint的区别)
前言有道题目这样的:某次考试,需从题库中抽取一定数量题目,假设题库中共有 1000 道题目,其中单选题 200 道,多选题 120 道,判断题 200 道, 填空题 400 道,简答题 80 道,现在需要随机抽出 25 道题,请给 出较合理的数据抽样方法,并编程实现,要求给出源代码(需有注释),并给出一次抽取结果。如果这是道数学题就很简单,算一下各个题目占比是多少再乘随机抽出题目的个数25就行但用python编程实现的话就会发现很多小技巧在里面先把我的代码放上来import random原创 2021-10-06 19:16:57 · 2117 阅读 · 0 评论 -
IDEA中XML与main文件里设置自动补全快捷键
在XML文件里想引用头类文件lombok可以省去手动创建部分代码可以简单理解为C语言中使用math头文件,这样可以减少自己手敲数学公式的烦恼首先在XML文件中导入依赖 <dependency> <groupId>org.projectlombok</groupId>> <artifactId>lombok</artifactId>> </dependency>然后再java文件中定义自己的类并原创 2021-10-04 20:30:07 · 1706 阅读 · 0 评论 -
关于IDEA中有关springboot快启动报错问题
问题在实验室里做有关后端的内容在使用spring boot 这块看了b站三小时入门课程中间也有遇到的问题就记录下来用于反思与思考关于spring boot中快启动的方法其中之一在terminal中执行mvn spring-boot:run指令我这里建立工程时把springboot错写成spirngboot大家在看视频写得时候千万要注意检查错误提示Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3原创 2021-10-04 14:35:13 · 235 阅读 · 0 评论 -
使用jupyter notebook打开.ipynb文件
前言最近学习LYH老师的机器学习视频,刚巧在gayhub上找到了老师课件和代码在GitHub上读老师的课件还是挺舒服的不过想把代码啥的下载运行,GitHub上的下载速度太慢想要快速下载的方法有两个,一个使用git软件直接git clone url直接下载,点我传送直接git下载方法另一个是使用第三方代码仓库中转下载我比较推荐第二种方法,使用第二种下载方法的文章写完我会直接上链接在这里问题后缀为.ipynb的文件可以直接在GitHub上查看,不过受网络影响还挺大的比如下图,我打开的时候经常会原创 2021-09-29 21:34:31 · 5082 阅读 · 2 评论 -
关于git clone http://xxxxxxxxxxx报错的问题
学习李宏毅老师的机器学习课无意中发现了gayhub上有老师的PPT与代码索性想下载看看我一般使用git直接爬取代码普通直接从网页上下载太慢但是git clone的时候出现了保存错误原因:fatal: unable to access ‘https://github.com/Fafa-DL/Lhy_Machine_Learning/’: OpenSSL SSL_read: Connection was reset, errno 10054估计是连接超时的问题我看其他回答里有说可能是co原创 2021-09-14 16:13:39 · 1320 阅读 · 0 评论