Answerlzd-CSDN博客

转载 Spark On Yarn

总之，Spark On Yarn就是让Spark运行在Yarn容器内部，资源管理交给Yarn的ResourceManager and NodeManager.Spark On Yarn有两种运行模式，分别为Cluster and Client，区别在于Driver运行的位置。StandAlone中的Master角色由YARN的ResourceManager担任。Cluster通讯成本低，因为Driver在YARN容器内部，不需要跨集群。一句话：Spark程序运行在Yarn容器内部。

2022-12-24 18:14:02 607

原创 func start‘func‘ 不是内部或外部命令，也不是可运行的程序

在启动项目（npm start）报了这个错，我的解决方法：安装azure-functions-core-tools 如果网络不好的话可能需要等一会。重新启动就好了。

2022-12-03 16:55:18 586

原创 ASP.Net Core 6.0--ExceptionFilter和ActionFilter代码片段

Asp.Net Core中Filter大概有五种类型，分别为：authorization filter, resource filter, action filter, exception filter and result filter.并且所有的filter一般都有同步版本和异步版本：IActionFilter, IAsyncActionFilter。

2022-11-26 16:13:04 872

原创 .NET Core 6.0 注册服务，并创建对象. Scoped声明周期

使用 .NET Core 6.0进行依赖注入

2022-11-16 21:40:37 2029

原创 Azure cosmosdb 创建删除database,container和增删改查操作

本文代码摘自cosmosdb官网，然后仿照着自己添加了一个删除container的函数，记录在此以便查阅。

2022-09-25 20:03:30 940

原创 React页面刷新样式丢失

代码】React页面刷新样式丢失。

2022-08-09 21:18:02 858

原创 Caught FileNotFoundError in DataLoader worker process 0.

在使用多个线程加载数据到模型时，报了一个加载错误：Caught FileNotFoundError in DataLoader worker process 0.但是并不知道错误在哪里。因此正确的做法是先排查哪里出现了错误。既然多线程不报具体错误的位置，那就不使用多线程将num_workers设置为0： data_loader = DataLoader(dataset=data_set, batch_size=128,

2022-04-14 20:25:30 12802 5

原创 .gitignore不生效, .gitignore常见匹配示例

在项目中有的文件不想保存到版本库，因此需要创建一个.gitignore文件，然后里面填上要忽略文件的名字但是在手动添加.gitignore并添加要忽略的文件后，并没有生效，可能是这个文件已经纳入版本管理中，因此需要先把本地的缓存删除，然后再提交就生效了：git rm -r --cached .git add .git commit -m 'update .gitignore'...

2022-01-19 14:44:24 479

原创 NLTK中文分句自定义词典 Mr. 不分词

因为我这里已经下载过NLTK了，所以就不提供安装教程了，搜一搜都能找到。这里就直接演示对英文句子切分：from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParametersdef cut_sentences_en(content): punkt_param = PunktParameters() abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof'

2021-12-09 16:58:51 1373

原创 linux conda 复制虚拟环境

自己配的环境老是跑不起来，所以想着把别人能跑的环境copy过来。做法如下：如果需要在具有相同操作系统的计算机之间复制环境，则可以生成 spec list。生成spec list 文件：conda list --explicit > spec-list.txt重现环境：conda create --name python-course --file spec-list.txt来自：吕星林师兄...

2021-10-29 16:09:32 4207

原创 Linux非root用户安装及配置nginx

安装nginx一共最多需要下载三个文件，一个是nginx （nginx官网）是必须的，另外可能需要两个依赖包：pcre（pcre官网）和zlib （zlib官网）流程如下：下载3个压缩包并解压安装编译这三个包（核心步骤）把自己的网页放在一个文件夹里一. 把三个压缩包都下载下来nginx: （我下载1.20.1安装失败，看到附录用1.16.1可以成功）pcre: (这个我下载的是 pcre-8.43.zip) 下面就是很多截图打开pcre的官网，选择历史版本：...

2021-10-21 22:28:25 6107 1

原创 LATEX algorithm 手动缩进

在文件开头引入下面的包和代码：\usepackage{algorithm}\usepackage{algorithmic}\newlength\myindent\setlength\myindent{2em}\newcommand\bindent{% \begingroup \setlength{\itemindent}{\myindent} \addtolength{\algorithmicindent}{\myindent}}\newcommand\eind.

2021-08-28 18:52:54 6938 5

原创 torch.cosine_similarity, 广播，一个矩阵的每行和另一个tensor计算相似度

1. torch.cosine_similarity 对应两个向量计算相似度a = torch.randn(100,128)b = torch.randn(100,128)torch.cosine_similarity(a, b, dim=-1).shape>>> torch.Size([100])2. torch.cosine_similarity 对任意两个向量之间两两计算相似度也就是希望得到一个 [N, N]的一个矩阵方法一：循环def get_att

2021-08-20 09:24:17 5380

原创 linux 按字符串分割文件 sed awk

例如文件的内容是这样的：Please rise , then , for this minute ' s silence . ||| Please rise , then , for this minute , silence . ||| 0 1 2 3 4 5 6 7 -1 10 11( The House rose and observed a minute ' s silence ) ||| ( he listened and observed a minute ' s silence ) |

2021-07-21 09:37:04 2289

原创 mosesdecoder/tokenizer.perl 使用说明

tokenizer.perl是统计机器翻译系统moses的一个小工具，可以用来对英文德文等进行分词。使用方法：$ perl tokenizer.perl -l en < [待分词文件] > [分词结果]其中: -l en 表示的输入的文件是英文例如：$ perl tokenizer.perl -l en < train.en > train.tok.en参数说明：if ($HELP){ print "Usage ./tokenizer....

2021-07-19 16:13:13 1951

原创多分类交叉熵纯python实现

之前只知道二分类交叉熵的公式，或者调包实现过，从来没用纯python实现过。正好有个机会需要写这么一个函数，特此记录一下。问题：给定一个logits输出x, 和真实的标签y要求计算其交叉熵首先要计算x的概率，用python实现softmax 然后找到标签对应的概率话不多说直接上代码：import mathdef softmax(x): m, n = len(x), len(x[0]) for i in range(m): cur_m = max(x[i])

2021-07-01 22:27:41 2649

原创 python t-sne降维可视化，显示类别名称，多种颜色

博主比较懒，不想写描述了

2021-05-27 22:01:18 9330 2

原创 git 常用命令工作流程

记录常用的git命令，不定期更新~命令用法 git pull origin main 从远程分支拉最新的代码到本地的main分支上 git checkout -b branch1 新建branch1分支，并切换到这个分支 git add . 将当前修改提交到暂存区 git commit -m "description" 将暂存区的修改真正保存 git status 查看当前分支状态（比如是否当前分支有改动） git branch ..

2021-04-25 17:04:09 615

原创 Unable to build Cython components. Please make sure Cython is installed if the torch.hub

在我使用torch.hub的时候报了如下一个错误：解决方法：参考：https://github.com/h5py/h5py/issues/535先安装 h5py 再安装 Cythonpip install h5pypip install Cython

2021-04-01 16:37:57 557

原创 pytorch 快速计算两个tensor的欧式距离

给定两个tensor： A 和 B。A的维度为 [m，h], B的维度为 [n，h]。要求每两行之间计算他们的欧氏距离，返回一个维度为[m，n]的tensor。要求不能使用循环，也不能扩充复制一个tensor。解：将欧式距离的公式展开，根号下面是。a是tensor A中某一行的平方和，b是tensor B中某一行的平方和，ab是两个向量的内积。所以代码为：def EuclideanDistances(a,b): sq_a = a**2 sum_sq_a = torch.sum.

2021-03-19 15:39:33 12387

原创 linux .bashrc文件配置

有时候配置linux虚拟环境时总是不小心改动已经配置好的.bashrc文件。为了防止系统自动变动之后能恢复原来的版本，特此记录一下当前能够正常使用的.bashrc文件内容# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# Uncomment the following line if you don't like systemctl's auto-paging

2021-02-04 15:16:44 1833

原创 launch.json vscode 调试带参数程序，指定GPU, 指定python解释器，封装包里面打断点

每次配置的时候都忘记launch.json里面怎么配置，特别是指定虚拟环境的python解释器时，常常会忘记python解释器的路径。这个launch.json可以点击菜单栏：运行->添加配置生成记录个例子，做笔记查阅：{ "version": "0.2.0", "configurations": [ { "python": "/home/axjia/anaconda35/envs/py37/bin/python3", .

2020-12-30 16:02:43 23319 10

转载 Git常用命令：初始化，提交，撤销修改

转自：https://blog.csdn.net/weixin_39564277/article/details/91349345记录一下常用命令：2.$ git config --global user.name “Your Name” 配置git用户信息$ git config --global user.email “email@example.com” 配置git用户信息3.$ git init 初始化仓库4.$ git add readme.txt 添加到暂存区5.$ git c

2020-12-06 16:59:38 395

原创 $‘\r‘: command not found 或者 vim去掉^M字符 (四种方法 )

这两种现象其实对应同一种问题：在windows下编辑的文件放到linux上执行时会出现这个问题。例如，有一个test.sh文件，通过vim直接打开时看到的是这样的：发现并没有什么问题。其实应该通过vim -b test.sh打开，这样看到的就是本来面目了。vim -b test.sh所以方法一、把^M删掉就可以了。按i进入编辑模式，删除即可。如果^M太多，可以使用查找替换命令，vim打开文件然后:%s/^M//g注意这个^M不是看到...

2020-12-05 17:48:12 2615 1

原创 pytorch 生成均值为0方差为0.01的tensor

一向记不住函数的用法，就用笔记来记录一下吧:生成一个2*3的tensor：torch.normal(mean=torch.full((2,3),0.0),std=torch.full((2,3),0.01))

2020-12-03 16:15:24 2806

原创 vscode连接服务器不用每次都输入密码

1、首先在自己的本地生成公钥和密钥git bash 输入以下命令：ssh-keygen生成的公钥和密钥默认放在.ssh文件夹，我的是2、修改本地的配置文件，添加下面这行属性到配置文件里IdentityFile "C:\Users\liuzhidong\.ssh\id_rsa"3、把本地生成的公钥里面的内容追加到服务器上的~/.ssh/authorized_keys结束！总的来说就是生成一对密钥，一个放在本地的配置文件，一个放在服务器上。...

2020-12-01 21:36:39 12815 9

原创 linux 找出出现在A文件中，但是不在B文件中的行

假设有两个文件A和B，需要找到A中出现过的且B中没出现的行，并保存到C文件中。cat A B B | sort | uniq -u > C主要涉及uniq命令的使用uniq --h

2020-11-24 14:21:50 5123

转载 vim 命令插入、删除、查询、替换操作。

转自：https://www.cnblogs.com/woshimrf/p/vim.html这里记录一下，做笔记查阅。使用vim编辑文件：vim filename进入之后的界面叫做命令模式界面。可以修改文件编辑的时候叫做插入模式。(插入模式)编辑模式以下按键进入编辑插入模式a //在当前光标位置的右边添加文本i //在当前光标位置的左边添加文本A //在当前行的末尾位置添加文本I //在当前行的开始处添加文本(非空字符的行首)..

2020-11-12 09:46:44 8337

原创 linux 在文件的每一行后面添加特殊字符

sed 's/$/ ||| /g' test.en > test.tok.en

2020-11-10 14:33:53 5188

原创 linux去除文件中的标点符号，大小写转换

去除标点：cat train.en | sed 's/[[:punct:]]//g' > train.clean.en大写转小写：cat train.en | tr A-Z a-z > train.lower.en同样可以小写转大写。两个空格合并为一个空格：cat train.en | sed 's/ / /g' > train.clean.en这三个操作可以放在一起：cat train.en | sed 's/[[:punct:]]...

2020-11-10 14:30:49 2193

原创 RuntimeError: Address already in use

Pytorch用多张GPU训练时，会报地址已被占用的错误。其实是端口号冲突了。因此解决方法要么kill原来的进程，要么修改端口号。在代码里重新配置torch.distributed.init_process_group() dist_init_method = 'tcp://{master_ip}:{master_port}'.format(master_ip='127.0.0.1', master_port='10000') dist_world_..

2020-10-26 09:30:32 8116

原创 RuntimeError: cuda runtime error (35) : CUDA driver version is insufficient

报错原因：服务器CUDA版本和自己装pytorch 的cuda版本不一致。所以修改自己pytorch的cuda版本。查看服务器的cuda版本：nvcc -V查看自己装pytorch的cuda版本：pythonimport torchtorch.version.cuda

2020-10-22 11:05:45 3707

原创 pycharm: Unable to display frame vriables

用pycharm连接linux服务器上程序时，可以正常运行。但是不能调试，调试的时候特别卡，而且变量窗口的变量也加载不出来尝试过扩大pycharm的内存，不好使。pycharm官网给的解决方法可以有效解决：https://blog.jetbrains.com/pycharm/2012/08/gevent-debug-support/在此记录一下：file->setting->python debugger然后把Gevent compatible前面的勾打上就可以了。

2020-10-19 11:20:11 2258 4

原创 pip 安装包成功但是import 失败

我遇到的问题是没有把包安装在虚拟环境里，以jieba包为例在虚拟环境下输入python，然后可以导入这个包。我们以为包装好了，其实这个包是安装在了基本环境里。使用conda list查看当前环境装的包的时候，其实并没有jieba这个包。conda list忘记截图了，，，所以需要使用虚拟环境的pip 安装jieba。在确认把包装在虚拟环境之后，切换到python环境也不能靠单纯敲python命令。而是要用虚拟环境的python，和前面的那个pip一样。举个例子，现在有.

2020-09-22 15:55:36 15329 1

转载【pytorch】/libstdc++.so.6: version `CXXABI_1.3.11‘ not found

转载：https://blog.csdn.net/JianJuly/article/details/99678608以下是我搬运的内容，防止原博客删掉了。使用python导入torchvision包时，计算机报错：/libstdc++.so.6: version CXXABI_1.3.11 not found可能错误原因：libstdc++.so.6版本太低解决方法：使用更高版本的libstdc++.so具体步骤:1. 在电脑中查找更高版本libstdc++.so在自己用户目录下.

2020-09-17 17:17:45 2267

原创 libstdc++.so.6: version `GLIBCXX_3.4.21‘ not found

参考：https://github.com/BVLC/caffe/issues/4953gcc版本问题，安装libgcc就可以了conda install libgcc

2020-09-17 17:09:52 450

原创 pip在虚拟环境中安装包

激活虚拟环境后，用conda list查看安装的包存在pip。但是用pip 安装的包还是装到了全局环境中，而且这个包只能用pip，不能用conda安装。因此怎么才能把包装到虚拟环境？用虚拟环境中的pip就可以了，因为在配置.bashrc的时候，设置的是使用全局环境的pip所以这里我们用虚拟环境的pip1.找到虚拟环境的pip，我的是/home/dlge/anaconda3/envs/pytorch1.4/bin/pip2.然后就是正常安装包/home/dlge/anaco

2020-09-17 16:52:14 6625 1

原创 AttributeError: module ‘torch.utils.data‘ has no attribute ‘IterableDataset‘ & OSError: libtorch.so

新装pytorch-lighting破坏了之前的pytorch1.1版本。然后重新装回pytorch1.1，在运行程序时一直报下面这个错误：AttributeError: module 'torch.utils.data' has no attribute 'IterableDataset'进去torch.utils.data 下面确实没有这个 IterableDataset。尝试很多修复的方法包括修改data下__init__.py文件，都没有用。我的解决方法：最后我把别人相同版本.

2020-09-17 16:26:49 2902 6

原创用于文本分类的数据增强方法

这是一篇发表在AAAI2020上的一篇文章，附上链接：https://aaai.org/ojs/index.php/AAAI/article/view/6233方法名为LAMBADA(Language Model Based Data Augmentation)，核心思路为：下面看一下每个步骤具体实施的过程：选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器，第四步的时候要用。这一步得到一个用于生成句子的模型：把训练集的数据组织成ySEP

2020-09-09 21:57:29 1877

原创 pytorch 更新部分参数（冻结参数）注意事项

实验的pytorch版本1.2.0在训练过程中可能需要固定一部分模型的参数，只更新另一部分参数。有两种思路实现这个目标，一个是设置不要更新参数的网络层为false，另一个就是在定义优化器时只传入要更新的参数。当然最优的做法是，优化器中只传入requires_grad=True的参数，这样占用的内存会更小一点，效率也会更高。一、设置参数为falseimport torchimport torch.nn as nnimport torch.optim as optim# 定义一个简单的网络

2020-09-09 17:24:59 26197 11

复述添加token.txt

训练数据已经子词化，所以直接跳转到准备训练： 1 准备训练 python3 /home/zdliu/pen_trans/opennmt-simple-1.0/opennmt-simple-1.0/preprocess.py -train_src /home/zdliu/pen_trans/train.en -train_tgt /home/zdliu/pen_trans/train.de -valid_src /home/zdliu/pen_trans/valid.en -valid_tgt /home/zdliu/pen_trans/valid.de -save_data /home/zdliu/pa_token_nmt/pre_train/wmt14 -share_vocab -src_vocab_size 40000 -tgt_vocab_size 40000 -src_seq_length 10000 -tgt_seq_length 10000 1> /home/zdliu/pa_token_nmt/pre_train/prepare.log 2>&1

2019-12-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

复述添加token.txt

python实现邮件收发

苏州大学抢学术会议脚本

神经网络模型结构图.visio格式

python多进程使用实例|multi_processing.py

exp-amr-parsing-2.0.sh|exp-amr-parsing-2.0.sh

prepare-wmt14en2fr.sh

transformer4.sh

nvidia-smi.py

handle_corpus.py

load_param.py

空空如也