自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(137)
  • 资源 (11)
  • 收藏
  • 关注

转载 Spark On Yarn

总之,Spark On Yarn就是让Spark运行在Yarn容器内部,资源管理交给Yarn的ResourceManager and NodeManager.Spark On Yarn有两种运行模式,分别为Cluster and Client,区别在于Driver运行的位置。StandAlone中的Master角色由YARN的ResourceManager担任。Cluster通讯成本低,因为Driver在YARN容器内部,不需要跨集群。一句话:Spark程序运行在Yarn容器内部。

2022-12-24 18:14:02 425 1

原创 func start‘func‘ 不是内部或外部命令,也不是可运行的程序

在启动项目(npm start)报了这个错, 我的解决方法:安装azure-functions-core-tools 如果网络不好的话可能需要等一会。重新启动就好了。

2022-12-03 16:55:18 447

原创 ASP.Net Core 6.0--ExceptionFilter和ActionFilter代码片段

Asp.Net Core中Filter大概有五种类型,分别为:authorization filter, resource filter, action filter, exception filter and result filter.并且所有的filter一般都有同步版本和异步版本:IActionFilter, IAsyncActionFilter。

2022-11-26 16:13:04 681

原创 .NET Core 6.0 注册服务,并创建对象. Scoped声明周期

使用 .NET Core 6.0进行依赖注入

2022-11-16 21:40:37 1830

原创 Azure cosmosdb 创建删除database,container和增删改查操作

本文代码摘自cosmosdb官网,然后仿照着自己添加了一个删除container的函数,记录在此以便查阅。

2022-09-25 20:03:30 730

原创 React页面刷新样式丢失

代码】React页面刷新样式丢失。

2022-08-09 21:18:02 705

原创 Caught FileNotFoundError in DataLoader worker process 0.

在使用多个线程加载数据到模型时,报了一个加载错误:Caught FileNotFoundError in DataLoader worker process 0.但是并不知道错误在哪里。因此正确的做法是先排查哪里出现了错误。既然多线程不报具体错误的位置,那就不使用多线程将num_workers设置为0: data_loader = DataLoader(dataset=data_set, batch_size=128,

2022-04-14 20:25:30 11580 5

原创 .gitignore不生效, .gitignore常见匹配示例

在项目中有的文件不想保存到版本库,因此需要创建一个.gitignore文件,然后里面填上要忽略文件的名字但是在手动添加.gitignore并添加要忽略的文件后,并没有生效,可能是这个文件已经纳入版本管理中,因此需要先把本地的缓存删除,然后再提交就生效了:git rm -r --cached .git add .git commit -m 'update .gitignore'...

2022-01-19 14:44:24 361

原创 NLTK中文分句 自定义词典 Mr. 不分词

因为我这里已经下载过NLTK了,所以就不提供安装教程了,搜一搜都能找到。这里就直接演示对英文句子切分:from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParametersdef cut_sentences_en(content): punkt_param = PunktParameters() abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof'

2021-12-09 16:58:51 1173

原创 linux conda 复制虚拟环境

自己配的环境老是跑不起来,所以想着把别人能跑的环境copy过来。做法如下:如果需要在具有 相同操作系统 的计算机之间复制环境,则可以生成 spec list。生成spec list 文件:conda list --explicit > spec-list.txt重现环境:conda create --name python-course --file spec-list.txt来自:吕星林师兄...

2021-10-29 16:09:32 3759

原创 Linux非root用户安装及配置nginx

安装nginx一共最多需要下载三个文件,一个是nginx (nginx官网)是必须的,另外可能需要两个依赖包:pcre(pcre官网)和zlib (zlib官网)流程如下:下载3个压缩包并解压 安装编译这三个包(核心步骤) 把自己的网页放在一个文件夹里一. 把三个压缩包都下载下来nginx: (我下载1.20.1安装失败,看到附录用1.16.1可以成功)pcre: (这个我下载的是 pcre-8.43.zip) 下面就是很多截图打开pcre的官网,选择历史版本:...

2021-10-21 22:28:25 4681

原创 LATEX algorithm 手动缩进

在文件开头引入下面的包和代码:\usepackage{algorithm}\usepackage{algorithmic}\newlength\myindent\setlength\myindent{2em}\newcommand\bindent{% \begingroup \setlength{\itemindent}{\myindent} \addtolength{\algorithmicindent}{\myindent}}\newcommand\eind.

2021-08-28 18:52:54 6049 5

原创 torch.cosine_similarity, 广播,一个矩阵的每行和另一个tensor计算相似度

1. torch.cosine_similarity 对应两个向量计算相似度a = torch.randn(100,128)b = torch.randn(100,128)torch.cosine_similarity(a, b, dim=-1).shape>>> torch.Size([100])2. torch.cosine_similarity 对任意两个向量之间两两计算相似度也就是希望得到一个 [N, N]的一个矩阵方法一:循环def get_att

2021-08-20 09:24:17 4764

原创 linux 按字符串分割文件 sed awk

例如文件的内容是这样的:Please rise , then , for this minute ' s silence . ||| Please rise , then , for this minute , silence . ||| 0 1 2 3 4 5 6 7 -1 10 11( The House rose and observed a minute ' s silence ) ||| ( he listened and observed a minute ' s silence ) |

2021-07-21 09:37:04 2078

原创 mosesdecoder/tokenizer.perl 使用说明

tokenizer.perl是统计机器翻译系统moses的一个小工具,可以用来对英文德文等进行分词。使用方法:$ perl tokenizer.perl -l en < [待分词文件] > [分词结果]其中: -l en 表示的输入的文件是英文例如:$ perl tokenizer.perl -l en < train.en > train.tok.en参数说明:if ($HELP){ print "Usage ./tokenizer....

2021-07-19 16:13:13 1781

原创 多分类 交叉熵 纯python实现

之前只知道二分类交叉熵的公式,或者调包实现过,从来没用纯python实现过。正好有个机会需要写这么一个函数,特此记录一下。问题:给定一个logits输出x, 和真实的标签y要求计算其交叉熵首先要计算x的概率,用python实现softmax 然后找到标签对应的概率话不多说直接上代码:import mathdef softmax(x): m, n = len(x), len(x[0]) for i in range(m): cur_m = max(x[i])

2021-07-01 22:27:41 2348

原创 python t-sne降维可视化, 显示类别名称, 多种颜色

博主比较懒,不想写描述了

2021-05-27 22:01:18 8498 2

原创 git 常用命令 工作流程

记录常用的git命令,不定期更新~命令 用法 git pull origin main 从远程分支拉最新的代码到本地的main分支上 git checkout -b branch1 新建branch1分支,并切换到这个分支 git add . 将当前修改提交到暂存区 git commit -m "description" 将暂存区的修改真正保存 git status 查看当前分支状态(比如是否当前分支有改动) git branch ..

2021-04-25 17:04:09 458

原创 Unable to build Cython components. Please make sure Cython is installed if the torch.hub

在我使用torch.hub的时候报了如下一个错误:解决方法:参考:https://github.com/h5py/h5py/issues/535先安装 h5py 再安装 Cythonpip install h5pypip install Cython

2021-04-01 16:37:57 429

原创 pytorch 快速计算两个tensor的欧式距离

给定两个tensor: A 和 B。A的维度为 [m,h], B的维度为 [n,h]。要求每两行之间计算他们的欧氏距离,返回一个维度为[m,n]的tensor。要求不能使用循环,也不能扩充复制一个tensor。解:将欧式距离的公式展开,根号下面是。a是tensor A中某一行的平方和,b是tensor B中某一行的平方和,ab是两个向量的内积。所以代码为:def EuclideanDistances(a,b): sq_a = a**2 sum_sq_a = torch.sum.

2021-03-19 15:39:33 11906

原创 linux .bashrc文件配置

有时候配置linux虚拟环境时总是不小心改动已经配置好的.bashrc文件。为了防止系统自动变动之后能恢复原来的版本,特此记录一下当前能够正常使用的.bashrc文件内容# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# Uncomment the following line if you don't like systemctl's auto-paging

2021-02-04 15:16:44 1496

原创 launch.json vscode 调试带参数程序,指定GPU, 指定python解释器,封装包里面打断点

每次配置的时候都忘记launch.json里面怎么配置,特别是指定虚拟环境的python解释器时,常常会忘记python解释器的路径。这个launch.json可以点击菜单栏:运行->添加配置 生成记录个例子,做笔记查阅:{ "version": "0.2.0", "configurations": [ { "python": "/home/axjia/anaconda35/envs/py37/bin/python3", .

2020-12-30 16:02:43 17926 9

转载 Git常用命令:初始化,提交,撤销修改

转自:https://blog.csdn.net/weixin_39564277/article/details/91349345记录一下常用命令:2.$ git config --global user.name “Your Name” 配置git用户信息$ git config --global user.email “email@example.com” 配置git用户信息3.$ git init 初始化仓库4.$ git add readme.txt 添加到暂存区5.$ git c

2020-12-06 16:59:38 315

原创 $‘\r‘: command not found 或者 vim去掉^M字符 (四种方法 )

这两种现象其实对应同一种问题:在windows下编辑的文件放到linux上执行时会出现这个问题。例如,有一个test.sh文件,通过vim直接打开时看到的是这样的:发现并没有什么问题。其实应该通过vim -b test.sh打开,这样看到的就是本来面目了。vim -b test.sh所以方法一、把^M删掉就可以了。按i进入编辑模式,删除即可。 如果^M太多,可以使用查找替换命令,vim打开文件然后:%s/^M//g注意这个^M不是看到...

2020-12-05 17:48:12 1866 1

原创 pytorch 生成均值为0方差为0.01的tensor

一向记不住函数的用法,就用笔记来记录一下吧:生成一个2*3的tensor:torch.normal(mean=torch.full((2,3),0.0),std=torch.full((2,3),0.01))

2020-12-03 16:15:24 2674

原创 vscode连接服务器不用每次都输入密码

1、首先在自己的本地生成公钥和密钥git bash 输入以下命令:ssh-keygen生成的公钥和密钥默认放在.ssh文件夹,我的是2、修改本地的配置文件,添加下面这行属性到配置文件里IdentityFile "C:\Users\liuzhidong\.ssh\id_rsa"3、 把本地生成的公钥里面的内容追加到服务器上的~/.ssh/authorized_keys结束!总的来说就是生成一对密钥,一个放在本地的配置文件,一个放在服务器上。...

2020-12-01 21:36:39 10192 9

原创 linux 找出出现在A文件中,但是不在B文件中的行

假设有两个文件A和B,需要找到A中出现过的且B中没出现的行,并保存到C文件中。cat A B B | sort | uniq -u > C主要涉及uniq命令的使用uniq --h

2020-11-24 14:21:50 4336

转载 vim 命令插入、删除、查询、替换操作。

转自:https://www.cnblogs.com/woshimrf/p/vim.html这里记录一下,做笔记查阅。使用vim编辑文件:vim filename进入之后的界面叫做命令模式界面。可以修改文件编辑的时候叫做插入模式。(插入模式)编辑模式以下按键进入编辑插入模式a //在当前光标位置的右边添加文本i //在当前光标位置的左边添加文本A //在当前行的末尾位置添加文本I //在当前行的开始处添加文本(非空字符的行首)..

2020-11-12 09:46:44 5252

原创 linux 在文件的每一行后面添加特殊字符

sed 's/$/ ||| /g' test.en > test.tok.en

2020-11-10 14:33:53 4994

原创 linux去除文件中的标点符号,大小写转换

去除标点:cat train.en | sed 's/[[:punct:]]//g' > train.clean.en大写转小写:cat train.en | tr A-Z a-z > train.lower.en同样可以小写转大写。两个空格合并为一个空格:cat train.en | sed 's/ / /g' > train.clean.en这三个操作可以放在一起:cat train.en | sed 's/[[:punct:]]...

2020-11-10 14:30:49 1974

原创 RuntimeError: Address already in use

Pytorch用多张GPU训练时,会报地址已被占用的错误。其实是端口号冲突了。因此解决方法要么kill原来的进程,要么修改端口号。在代码里重新配置torch.distributed.init_process_group() dist_init_method = 'tcp://{master_ip}:{master_port}'.format(master_ip='127.0.0.1', master_port='10000') dist_world_..

2020-10-26 09:30:32 7794

原创 RuntimeError: cuda runtime error (35) : CUDA driver version is insufficient

报错原因:服务器CUDA版本和自己装pytorch 的cuda版本不一致。所以修改自己pytorch的cuda版本。查看服务器的cuda版本:nvcc -V查看自己装pytorch的cuda版本:pythonimport torchtorch.version.cuda

2020-10-22 11:05:45 2941

原创 pycharm: Unable to display frame vriables

用pycharm连接linux服务器上程序时,可以正常运行。但是不能调试,调试的时候特别卡,而且变量窗口的变量也加载不出来尝试过扩大pycharm的内存,不好使。pycharm官网给的解决方法可以有效解决:https://blog.jetbrains.com/pycharm/2012/08/gevent-debug-support/在此记录一下:file->setting->python debugger然后把Gevent compatible前面的勾打上就可以了。

2020-10-19 11:20:11 2001 3

原创 pip 安装包成功 但是import 失败

我遇到的问题是没有把包安装在虚拟环境里,以jieba包为例在虚拟环境下输入python,然后可以导入这个包。我们以为包装好了,其实这个包是安装在了基本环境里。使用conda list查看当前环境装的包的时候,其实并没有jieba这个包。conda list忘记截图了,,,所以需要使用虚拟环境的pip 安装jieba。在确认把包装在虚拟环境之后,切换到python环境也不能靠单纯敲python命令。而是要用虚拟环境的python,和前面的那个pip一样。举个例子,现在有.

2020-09-22 15:55:36 14887 1

转载 【pytorch】/libstdc++.so.6: version `CXXABI_1.3.11‘ not found

转载:https://blog.csdn.net/JianJuly/article/details/99678608以下是我搬运的内容,防止原博客删掉了。使用python导入torchvision包时,计算机报错:/libstdc++.so.6: version CXXABI_1.3.11 not found可能错误原因:libstdc++.so.6版本太低解决方法:使用更高版本的libstdc++.so具体步骤:1. 在电脑中查找更高版本libstdc++.so在自己用户目录下.

2020-09-17 17:17:45 1337

原创 libstdc++.so.6: version `GLIBCXX_3.4.21‘ not found

参考:https://github.com/BVLC/caffe/issues/4953gcc版本问题,安装libgcc就可以了conda install libgcc

2020-09-17 17:09:52 269

原创 pip在虚拟环境中安装包

激活虚拟环境后,用conda list查看安装的包存在pip。但是用pip 安装的包还是装到了全局环境中,而且这个包只能用pip,不能用conda安装。因此怎么才能把包装到虚拟环境?用虚拟环境中的pip就可以了,因为在配置.bashrc的时候,设置的是使用全局环境的pip所以这里我们用虚拟环境的pip1.找到虚拟环境的pip,我的是/home/dlge/anaconda3/envs/pytorch1.4/bin/pip2.然后就是正常安装包/home/dlge/anaco

2020-09-17 16:52:14 6020 1

原创 AttributeError: module ‘torch.utils.data‘ has no attribute ‘IterableDataset‘ & OSError: libtorch.so

新装pytorch-lighting破坏了之前的pytorch1.1版本。然后重新装回pytorch1.1,在运行程序时一直报下面这个错误:AttributeError: module 'torch.utils.data' has no attribute 'IterableDataset'进去torch.utils.data 下面确实没有这个 IterableDataset。尝试很多修复的方法包括修改data下__init__.py文件,都没有用。我的解决方法:最后我把别人相同版本.

2020-09-17 16:26:49 2720 6

原创 用于文本分类的数据增强方法

这是一篇发表在AAAI2020上的一篇文章,附上链接:https://aaai.org/ojs/index.php/AAAI/article/view/6233方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为:下面看一下每个步骤具体实施的过程:选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,第四步的时候要用。 这一步得到一个用于生成句子的模型:把训练集的数据组织成ySEP

2020-09-09 21:57:29 1608

原创 pytorch 更新部分参数(冻结参数)注意事项

实验的pytorch版本1.2.0在训练过程中可能需要固定一部分模型的参数,只更新另一部分参数。有两种思路实现这个目标,一个是设置不要更新参数的网络层为false,另一个就是在定义优化器时只传入要更新的参数。当然最优的做法是,优化器中只传入requires_grad=True的参数,这样占用的内存会更小一点,效率也会更高。一、设置参数为falseimport torchimport torch.nn as nnimport torch.optim as optim# 定义一个简单的网络

2020-09-09 17:24:59 25069 11

苏州大学抢学术会议脚本

如何在有限的名额下抢到学术会议呢, 完全自动不太好操作,因此退而求其次,选择快速复制粘贴,避免手动输入。

2022-06-23

神经网络模型结构图.visio格式

三个用visio画的神经网络模型结构图,保存一下,下次直接可以修改。

2021-01-18

python多进程使用实例|multi_processing.py

对整个文件操作时,需要花费很长时间。因此尝试使用多进程的方法,同时对46个文件进行操作。具体实现思路:先对文件进行切分,然后同时提交。里面涉及linux命令。

2020-11-18

exp-amr-parsing-2.0.sh|exp-amr-parsing-2.0.sh

东钦师兄的bash脚本,里面包括bash的基本语法。顺序选择循环等等。主要用来操作transformer模型

2020-09-08

prepare-wmt14en2fr.sh

脚本实现的功能包括:数据下载,解压,使用摩西对语料进行切分以及符号标准化。并使用bpe对单词切分,处理完成的训练集包含360M条。

2020-08-19

transformer4.sh

transformer跑文本摘要的参数,如果没指定则采用默认设置。也就是attention is all you need中默认的参数。

2020-08-03

nvidia-smi.py

在我们输入nvidia-smi命令时只能显示进程号,然后根据进程号查看用户名。这个脚本可以直接显示用户名。

2020-07-31

handle_corpus.py

txt格式的文本摘要语料:CNN/daily mail。抽取其中的摘要和短文,当一个短文对应多个摘要时,选择第一个摘要。只是脚本:并没有语料

2020-07-23

python实现邮件收发

1) 编写单机版邮件客户端程序,可以实现对邮件(在开发时,选择校内邮箱进行实验即可)的收发功能,具体包括如下: (1) 可以查看与设置SMTP服务器和POP3服务器地址; (2) 通过输入用户名及密码,实现邮箱账号登录; (3) 可以查看邮箱内已收到的邮件,类似收件箱; (4) 可编辑新邮件,并发送给其他账号邮箱。

2020-07-16

load_param.py

一个实例,为了验证两个东西:一、为了验证加载模型参数的基本步骤,二、同时验证这两部分的参数不会同时改变。

2020-06-21

复述添加token.txt

训练数据已经子词化,所以直接跳转到准备训练: 1 准备训练 python3 /home/zdliu/pen_trans/opennmt-simple-1.0/opennmt-simple-1.0/preprocess.py -train_src /home/zdliu/pen_trans/train.en -train_tgt /home/zdliu/pen_trans/train.de -valid_src /home/zdliu/pen_trans/valid.en -valid_tgt /home/zdliu/pen_trans/valid.de -save_data /home/zdliu/pa_token_nmt/pre_train/wmt14 -share_vocab -src_vocab_size 40000 -tgt_vocab_size 40000 -src_seq_length 10000 -tgt_seq_length 10000 1> /home/zdliu/pa_token_nmt/pre_train/prepare.log 2>&1

2019-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除