![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Coding
文章平均质量分 58
代码实战;巧妙思路
SUFEHeisenberg
在读PhD,研究兴趣为NLP方向。
展开
-
【Bugs】openai.error.ServiceUnavailableError The server is overloaded or not ready yet
【代码】【Bugs】openai.error.ServiceUnavailableError The server is overloaded or not ready yet。原创 2023-07-21 15:57:40 · 1458 阅读 · 0 评论 -
Linux Screen保持后台交互
这个时候,关闭终端,xxx虚拟终端也不会停止运行。刚刚我们介绍了创建虚拟终端,并回到主终端的方法。pid/name:为虚拟终端PID或Name。进入screen的指令接受,再按。,xxx为虚拟终端名字。原创 2023-07-18 13:32:19 · 284 阅读 · 0 评论 -
InstanceNorm && LayerNorm
IN&&LN原创 2023-01-26 15:59:52 · 1560 阅读 · 1 评论 -
Python实现Welch‘s T-test
Welch’s T-test原创 2022-11-15 18:18:22 · 2592 阅读 · 0 评论 -
【2022版】基于矩阵分解的PCA 白化&ZCA白化
【2022版】基于矩阵分解的PCA 白化&ZCA白化原创 2022-11-14 07:22:23 · 566 阅读 · 0 评论 -
BP算法实例及代码实现
BP算法实例原创 2021-04-14 13:03:09 · 2658 阅读 · 11 评论 -
M1 pro 芯片Macbook Pro配置anaconda&& GPU版Pytorch
M1 Mac配置anaconda+PyTorch原创 2022-09-30 07:50:01 · 2028 阅读 · 0 评论 -
M1 pro 芯片Macbook Pro配置Apple Silicon版Pycharm安装报错 “Pycharm.app意外退出”
pycharm安装报错原创 2022-09-30 06:14:32 · 2300 阅读 · 1 评论 -
【Useful Tools】SUFE Computer Science Conference Deadline Webtools
SUFE CS CONF DDL原创 2022-07-10 00:16:00 · 227 阅读 · 0 评论 -
AGNews Dataset的LDA2vec探索Exp
lda2vec方法的应用原创 2022-07-09 23:44:43 · 1009 阅读 · 0 评论 -
【Trick】Finalshell忘记密码找回(傻瓜点击版)
【Trick】Finalshell忘记密码找回(傻瓜点击版)@author: SUFEHeisenberg@date: 2022/04/18有鼠标就行的傻瓜点🐔版:教程一找到finalshell/conn存储dir找到你得密码编码FinalShell密码找回/FinalShell密码破解复制上述链接的Java代码到这里Done!...原创 2022-04-18 23:45:43 · 5507 阅读 · 1 评论 -
【Coding】BERT finetune用任意几个Layer的output feature作为final logits
【Coding】BERT finetune用任意几个Layer的output feature作为final logits某些paper中表示用最后四个layer的output feature结果要好一些。根据huggingface model output输出outputs = self.bert(input_ids, attention_mask=attention_mask, token_type_ids=token_t原创 2022-03-01 16:52:09 · 257 阅读 · 0 评论 -
【Coding】Pandas实现VLOOKUP模糊搜索匹配
【Coding】Pandas实现VLOOKUP模糊搜索匹配1. 问题描述如果想利用pandas在python中实现Series文本中的模糊匹配而非精准匹配,可以利用fuzzy实现。2. 数据样例df1 = pd.DataFrame([['Apple','A'],['Banana','B'],['Orange','C'],['Strawberry','D'],['Mango','G']], columns=['Fruits','AA'])df2 = pd.DataFrame([['Aple','a'原创 2022-02-27 23:45:30 · 3291 阅读 · 0 评论 -
【Coding】LSF作业系统查看bsub提交历史
LSF作业系统查看bsub提交历史查看job history都是通过bhist命令实现。1. 查看某个具体的作业历史记录bhist -l job-ID(base) usr@gpu1:~$ bhist 655xxSummary of time in seconds spent in various states:JOBID USER JOB_NAME PEND PSUSP RUN USUSP SSUSP UNKWN TOTAL655xx usr xy原创 2022-02-13 10:02:55 · 3560 阅读 · 1 评论 -
【Coding】argparse 传递boolean布林值
【Coding】argparse 传递boolean布林值实验中发现argparse在传递参数时无论选择是TrueorFalse,参数都会默认是True。所以想传递boolean可以用一下方法试验:import argparseparser = argparse.ArgumentParser(description='Choose Model mode')parser.add_argument('--flag','-f', action="store_true",原创 2021-12-24 11:02:16 · 615 阅读 · 0 评论 -
Pytorch Load Dataset 多线程加载读取数据
Pytorch Load Dataset 多线程加载读取数据单线程读取数据时以agnews dataset为例,num_worker=1时读取时间如下:Load Test Data Spends 12.183895587921143 secondsLoad Test Data Spends 200.42685055732727 secondsDataLoader(dataset, num_workers=2,collate_fn=collate_fn)时Load Test Data Spe原创 2021-11-29 21:29:22 · 1977 阅读 · 0 评论 -
Pandas 返回Nan值的行索
Pandas 返回Nan值的行索通过np.where函数查找。>>> dfOut[1]: 0 10 0.450319 0.0625951 -0.673058 0.1560732 -0.871179 -0.1185753 0.594188 NaN4 -1.017903 -0.4847445 0.860375 0.2392656 -0.640070 NaN7 -0.535802 1.632932原创 2021-11-15 15:05:29 · 1995 阅读 · 1 评论 -
Bert model output不会随意改变
Bert model output不会随意改变随便load两个bert model进行验证。>>>model1 = BertModel.from_pretrained(checkpoint)>>>model2 = BertModel.from_pretrained(checkpoint)>>>a = tokenizer("Hello, my dog is cute", return_tensors="pt")>>>b = t原创 2021-11-13 23:05:27 · 1098 阅读 · 0 评论 -
【Bugs】pyarrow.lib.ArrowInvalid Column 2 named label expected length 1004 but got length 1000
【Bugs】pyarrow.lib.ArrowInvalid: Column 2 named label expected length 1004 but got length 1000又是一年双十一,又累又困惨戚戚。——2021.11.11bugs描述在pytorch huggingface环境中想更改tokenizer编码的input_ids的index,本想通过赋值的方式发现报错:tokenized_datasets_test = agnews_dataset['test'].map(tok原创 2021-11-11 20:49:37 · 2530 阅读 · 1 评论 -
【Bugs】解决报错CondaValueError- prefix already exists
【Bugs】CondaValueError: prefix already exists1. 问题情景在conda create -n ur_env_name python=3.7的时候报错WARNING: A directory already exists at the target location '/Users/usr/anaconda3/envs/ur_env_name 'but it is not a conda environment.Continue creating envir原创 2021-10-11 18:49:20 · 14094 阅读 · 0 评论 -
【Bugs】解决报错RemoveError- ‘setuptools‘ is a dependency of conda
【Bugs】解决报错RemoveError: ‘setuptools’ is a dependency of cond1. 报错场景在整理conda的虚拟环境是想移除某个虚拟环境conda remove -n ur_env_name --all遇到errors:RemoveError: 'setuptools' is a dependency of conda and cannot be removed from conda's operating environment后参考RemoveErro原创 2021-10-11 17:11:59 · 919 阅读 · 0 评论 -
Python计算余弦相似度的方法及时间比较
Python计算余弦相似度的方法及时间比较形如有一个矩阵ashape形如(4,99999)和bshape形如(32,99999),a的每一行去和b的每一行做余弦相似度计算,output一个shape形如(4,32)的余弦相似度矩阵。a = np.random.random(size = (4,99999)).tolist()b = np.random.random(size = (32,99999)).tolist()1. Scipyfrom scipy import spatialt1 =原创 2021-10-06 17:14:24 · 1026 阅读 · 0 评论 -
Python list保留index的排序方法及时间开销比较
Python list保留index的排序方法及时间开销比较1. enumerate()>>> a = [1,4,2,5,3]>>> b = sorted(enumerate(a),key = lambda x:x[1],reverse=True) # reverse参数为True为降序排序>>> b[(0, 1), (2, 2), (4, 3), (1, 4), (3, 5)]## index 和 value以tuple的形式返回(ind,原创 2021-10-06 16:28:54 · 1409 阅读 · 0 评论 -
【Coding】*与**运算符在python中的应用示例
在python基础环境中,*与**具有语法多义性,具体可以归结为以下四类:1. 算数运算*:乘法,**:乘方,次幂。>>> 2*36>>> 2**382. 函数形参*args和**kwargs主要用于函数定义。我们可以将不定熟练地过参数传递给一个函数,不定的意思是:预先并不知道,函数会传递给函数多少参数,所以在该场景下使用上述两个关键词。args和kwargs并不是写死的,但是*和**号是必须的,知识约定俗成写成 *args 和 **kwargs 。原创 2021-10-02 22:25:21 · 85 阅读 · 0 评论 -
【转载】Simple AI——Huggingface NLP笔记
【转载】Simple AI——Huggingface NLP笔记基于Pytorch的Huggingface NLP初级教程八篇笔记:官方教程网址本期内容对应网址本系列笔记的GitHub Notebook(可下载直接运行)笔记1:直接使用pipeline,是个人就能玩NLP笔记2:一文看清Transformer大家族的三股势力笔记3:Pipeline端到端的背后发生了什么笔记4:Models,Tokenizers,以及如何做Subword tokenization笔记5:attention_转载 2021-10-01 15:31:05 · 195 阅读 · 0 评论 -
【NLP】python中英文关键词抽取技术总结
【NLP】python中英文关键词抽取技术总结无论是在中文还是英文中关键词抽取技术都是有着很重要的应用价值和分析价值,下面在python环境中分别针对中文和英文介绍几种常用的关键词抽取方法。1. 英文抽取英文关键词的几种方法:1.1 spaCyspaCy是一个集成化的工业级自然语言处理工具,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。text = "Private investment firm Carlyle Group,which has a reputation f原创 2021-09-29 13:56:15 · 6169 阅读 · 2 评论 -
Keras查看神经网络每层输出
Keras查看神经网络每层输出@author:Heisenberg主要介绍Keras框架下应用K.functions()查看神经网络每层的输出。先介绍主体代码,本篇以一个简单的neural networks为例。import numpy as npimport keras.backend as Kfrom keras import Modelfrom keras.layers import *class Normal(Layer): def __init__(self, **kwar原创 2021-05-10 00:06:20 · 4869 阅读 · 0 评论 -
基于Numpy的矩阵相乘
基于Numpy的矩阵相乘@author: Heisenberg主要介绍了矩阵乘法、哈达玛积、克罗内克积的概念及基于numpy的实现。1. 矩阵乘法1.1 概念即线性代数中不满足交换律的矩阵乘法,又称为矩阵内积、点积(dot-product)。i.e.AB≠BAi.e. AB\neq BAi.e.AB=BA。一般记为A⋅BA\cdot BA⋅B。A(m×n)⋅B(n×k)=C(m×k)A_{(m\times n)}\cdot B_{(n\times k)}=C_{(m\times k)}A(m原创 2021-03-22 22:11:43 · 1058 阅读 · 0 评论 -
【coding】Bert-Whitening细解
BERT-Whitening细解@author: Heisenberg@date: 2021-01-16The code was share from Jianlin Su on his blogAnd This is a repo.Data can be download from here原jupyter notebook 格式可在github上查看。测试任务:GLUE的STS-B句子相似性任务测试环境:tf2.2.0+ keras2.3.1+ bert4keras 0.9.8对向量进原创 2021-01-16 20:17:49 · 2740 阅读 · 4 评论 -
【转载】你可能不需要BERT-flow:一个线性变换媲美BERT-flow
转载自科学空间-苏剑林苏剑林. (Jan. 11, 2021). 《你可能不需要BERT-flow:一个线性变换媲美BERT-flow 》[Blog post].BERT-flow来自论文《On the Sentence Embeddings from Pre-trained Language Models》,中了EMNLP 2020,主要是用flow模型校正了BERT出来的句向量的分布,从而使得计算出来的cos相似度更为合理一些。由于笔者定时刷Arixv的习惯,早在它放到Arxiv时笔者就看到了它,但转载 2021-01-14 10:45:31 · 441 阅读 · 0 评论 -
【coding】pandas返回文本序列长度及其描述性统计
【coding】pandas返回文本序列长度及其描述性统计文本长度统计pandas时不要盲目的使用for-loop,费时费力;要熟练掌握pandas提供的内置函数。df_len_a = df['a'].str.len()#返回的df_len_a本身也是个pandas.core.series.Series数值化序列数据快速筛选出长度大于某个值的所有行df[df['a'].str.len() > 100]数值序列描述性统计df_len_a.count() #非空观测数量df_len_原创 2020-12-10 00:43:46 · 1094 阅读 · 0 评论 -
【Coding】Keras:A Scalar Multiply A Matrix Tensor
【Coding】Keras:A Scalar Multiply A Matrix TensorIntuitionInput:K(A float scalar)emb1(A floar matrix in Keras Tensor Type) which shape is [None, maxlen,wvdim] i.e.[?,50,200]emb2(A floar matrix in Keras Tensor Type) which shape is[None, maxlen,wvdim]原创 2020-11-06 16:56:54 · 217 阅读 · 0 评论