- 博客(137)
- 资源 (11)
- 收藏
- 关注
转载 Spark On Yarn
总之,Spark On Yarn就是让Spark运行在Yarn容器内部,资源管理交给Yarn的ResourceManager and NodeManager.Spark On Yarn有两种运行模式,分别为Cluster and Client,区别在于Driver运行的位置。StandAlone中的Master角色由YARN的ResourceManager担任。Cluster通讯成本低,因为Driver在YARN容器内部,不需要跨集群。一句话:Spark程序运行在Yarn容器内部。
2022-12-24 18:14:02 425 1
原创 func start‘func‘ 不是内部或外部命令,也不是可运行的程序
在启动项目(npm start)报了这个错, 我的解决方法:安装azure-functions-core-tools 如果网络不好的话可能需要等一会。重新启动就好了。
2022-12-03 16:55:18 447
原创 ASP.Net Core 6.0--ExceptionFilter和ActionFilter代码片段
Asp.Net Core中Filter大概有五种类型,分别为:authorization filter, resource filter, action filter, exception filter and result filter.并且所有的filter一般都有同步版本和异步版本:IActionFilter, IAsyncActionFilter。
2022-11-26 16:13:04 681
原创 Azure cosmosdb 创建删除database,container和增删改查操作
本文代码摘自cosmosdb官网,然后仿照着自己添加了一个删除container的函数,记录在此以便查阅。
2022-09-25 20:03:30 730
原创 Caught FileNotFoundError in DataLoader worker process 0.
在使用多个线程加载数据到模型时,报了一个加载错误:Caught FileNotFoundError in DataLoader worker process 0.但是并不知道错误在哪里。因此正确的做法是先排查哪里出现了错误。既然多线程不报具体错误的位置,那就不使用多线程将num_workers设置为0: data_loader = DataLoader(dataset=data_set, batch_size=128,
2022-04-14 20:25:30 11580 5
原创 .gitignore不生效, .gitignore常见匹配示例
在项目中有的文件不想保存到版本库,因此需要创建一个.gitignore文件,然后里面填上要忽略文件的名字但是在手动添加.gitignore并添加要忽略的文件后,并没有生效,可能是这个文件已经纳入版本管理中,因此需要先把本地的缓存删除,然后再提交就生效了:git rm -r --cached .git add .git commit -m 'update .gitignore'...
2022-01-19 14:44:24 361
原创 NLTK中文分句 自定义词典 Mr. 不分词
因为我这里已经下载过NLTK了,所以就不提供安装教程了,搜一搜都能找到。这里就直接演示对英文句子切分:from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParametersdef cut_sentences_en(content): punkt_param = PunktParameters() abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof'
2021-12-09 16:58:51 1173
原创 linux conda 复制虚拟环境
自己配的环境老是跑不起来,所以想着把别人能跑的环境copy过来。做法如下:如果需要在具有 相同操作系统 的计算机之间复制环境,则可以生成 spec list。生成spec list 文件:conda list --explicit > spec-list.txt重现环境:conda create --name python-course --file spec-list.txt来自:吕星林师兄...
2021-10-29 16:09:32 3759
原创 Linux非root用户安装及配置nginx
安装nginx一共最多需要下载三个文件,一个是nginx (nginx官网)是必须的,另外可能需要两个依赖包:pcre(pcre官网)和zlib (zlib官网)流程如下:下载3个压缩包并解压 安装编译这三个包(核心步骤) 把自己的网页放在一个文件夹里一. 把三个压缩包都下载下来nginx: (我下载1.20.1安装失败,看到附录用1.16.1可以成功)pcre: (这个我下载的是 pcre-8.43.zip) 下面就是很多截图打开pcre的官网,选择历史版本:...
2021-10-21 22:28:25 4681
原创 LATEX algorithm 手动缩进
在文件开头引入下面的包和代码:\usepackage{algorithm}\usepackage{algorithmic}\newlength\myindent\setlength\myindent{2em}\newcommand\bindent{% \begingroup \setlength{\itemindent}{\myindent} \addtolength{\algorithmicindent}{\myindent}}\newcommand\eind.
2021-08-28 18:52:54 6049 5
原创 torch.cosine_similarity, 广播,一个矩阵的每行和另一个tensor计算相似度
1. torch.cosine_similarity 对应两个向量计算相似度a = torch.randn(100,128)b = torch.randn(100,128)torch.cosine_similarity(a, b, dim=-1).shape>>> torch.Size([100])2. torch.cosine_similarity 对任意两个向量之间两两计算相似度也就是希望得到一个 [N, N]的一个矩阵方法一:循环def get_att
2021-08-20 09:24:17 4764
原创 linux 按字符串分割文件 sed awk
例如文件的内容是这样的:Please rise , then , for this minute ' s silence . ||| Please rise , then , for this minute , silence . ||| 0 1 2 3 4 5 6 7 -1 10 11( The House rose and observed a minute ' s silence ) ||| ( he listened and observed a minute ' s silence ) |
2021-07-21 09:37:04 2078
原创 mosesdecoder/tokenizer.perl 使用说明
tokenizer.perl是统计机器翻译系统moses的一个小工具,可以用来对英文德文等进行分词。使用方法:$ perl tokenizer.perl -l en < [待分词文件] > [分词结果]其中: -l en 表示的输入的文件是英文例如:$ perl tokenizer.perl -l en < train.en > train.tok.en参数说明:if ($HELP){ print "Usage ./tokenizer....
2021-07-19 16:13:13 1781
原创 多分类 交叉熵 纯python实现
之前只知道二分类交叉熵的公式,或者调包实现过,从来没用纯python实现过。正好有个机会需要写这么一个函数,特此记录一下。问题:给定一个logits输出x, 和真实的标签y要求计算其交叉熵首先要计算x的概率,用python实现softmax 然后找到标签对应的概率话不多说直接上代码:import mathdef softmax(x): m, n = len(x), len(x[0]) for i in range(m): cur_m = max(x[i])
2021-07-01 22:27:41 2348
原创 git 常用命令 工作流程
记录常用的git命令,不定期更新~命令 用法 git pull origin main 从远程分支拉最新的代码到本地的main分支上 git checkout -b branch1 新建branch1分支,并切换到这个分支 git add . 将当前修改提交到暂存区 git commit -m "description" 将暂存区的修改真正保存 git status 查看当前分支状态(比如是否当前分支有改动) git branch ..
2021-04-25 17:04:09 458
原创 Unable to build Cython components. Please make sure Cython is installed if the torch.hub
在我使用torch.hub的时候报了如下一个错误:解决方法:参考:https://github.com/h5py/h5py/issues/535先安装 h5py 再安装 Cythonpip install h5pypip install Cython
2021-04-01 16:37:57 429
原创 pytorch 快速计算两个tensor的欧式距离
给定两个tensor: A 和 B。A的维度为 [m,h], B的维度为 [n,h]。要求每两行之间计算他们的欧氏距离,返回一个维度为[m,n]的tensor。要求不能使用循环,也不能扩充复制一个tensor。解:将欧式距离的公式展开,根号下面是。a是tensor A中某一行的平方和,b是tensor B中某一行的平方和,ab是两个向量的内积。所以代码为:def EuclideanDistances(a,b): sq_a = a**2 sum_sq_a = torch.sum.
2021-03-19 15:39:33 11906
原创 linux .bashrc文件配置
有时候配置linux虚拟环境时总是不小心改动已经配置好的.bashrc文件。为了防止系统自动变动之后能恢复原来的版本,特此记录一下当前能够正常使用的.bashrc文件内容# .bashrc# Source global definitionsif [ -f /etc/bashrc ]; then . /etc/bashrcfi# Uncomment the following line if you don't like systemctl's auto-paging
2021-02-04 15:16:44 1496
原创 launch.json vscode 调试带参数程序,指定GPU, 指定python解释器,封装包里面打断点
每次配置的时候都忘记launch.json里面怎么配置,特别是指定虚拟环境的python解释器时,常常会忘记python解释器的路径。这个launch.json可以点击菜单栏:运行->添加配置 生成记录个例子,做笔记查阅:{ "version": "0.2.0", "configurations": [ { "python": "/home/axjia/anaconda35/envs/py37/bin/python3", .
2020-12-30 16:02:43 17926 9
转载 Git常用命令:初始化,提交,撤销修改
转自:https://blog.csdn.net/weixin_39564277/article/details/91349345记录一下常用命令:2.$ git config --global user.name “Your Name” 配置git用户信息$ git config --global user.email “email@example.com” 配置git用户信息3.$ git init 初始化仓库4.$ git add readme.txt 添加到暂存区5.$ git c
2020-12-06 16:59:38 315
原创 $‘\r‘: command not found 或者 vim去掉^M字符 (四种方法 )
这两种现象其实对应同一种问题:在windows下编辑的文件放到linux上执行时会出现这个问题。例如,有一个test.sh文件,通过vim直接打开时看到的是这样的:发现并没有什么问题。其实应该通过vim -b test.sh打开,这样看到的就是本来面目了。vim -b test.sh所以方法一、把^M删掉就可以了。按i进入编辑模式,删除即可。 如果^M太多,可以使用查找替换命令,vim打开文件然后:%s/^M//g注意这个^M不是看到...
2020-12-05 17:48:12 1866 1
原创 pytorch 生成均值为0方差为0.01的tensor
一向记不住函数的用法,就用笔记来记录一下吧:生成一个2*3的tensor:torch.normal(mean=torch.full((2,3),0.0),std=torch.full((2,3),0.01))
2020-12-03 16:15:24 2674
原创 vscode连接服务器不用每次都输入密码
1、首先在自己的本地生成公钥和密钥git bash 输入以下命令:ssh-keygen生成的公钥和密钥默认放在.ssh文件夹,我的是2、修改本地的配置文件,添加下面这行属性到配置文件里IdentityFile "C:\Users\liuzhidong\.ssh\id_rsa"3、 把本地生成的公钥里面的内容追加到服务器上的~/.ssh/authorized_keys结束!总的来说就是生成一对密钥,一个放在本地的配置文件,一个放在服务器上。...
2020-12-01 21:36:39 10192 9
原创 linux 找出出现在A文件中,但是不在B文件中的行
假设有两个文件A和B,需要找到A中出现过的且B中没出现的行,并保存到C文件中。cat A B B | sort | uniq -u > C主要涉及uniq命令的使用uniq --h
2020-11-24 14:21:50 4336
转载 vim 命令插入、删除、查询、替换操作。
转自:https://www.cnblogs.com/woshimrf/p/vim.html这里记录一下,做笔记查阅。使用vim编辑文件:vim filename进入之后的界面叫做命令模式界面。可以修改文件编辑的时候叫做插入模式。(插入模式)编辑模式以下按键进入编辑插入模式a //在当前光标位置的右边添加文本i //在当前光标位置的左边添加文本A //在当前行的末尾位置添加文本I //在当前行的开始处添加文本(非空字符的行首)..
2020-11-12 09:46:44 5252
原创 linux去除文件中的标点符号,大小写转换
去除标点:cat train.en | sed 's/[[:punct:]]//g' > train.clean.en大写转小写:cat train.en | tr A-Z a-z > train.lower.en同样可以小写转大写。两个空格合并为一个空格:cat train.en | sed 's/ / /g' > train.clean.en这三个操作可以放在一起:cat train.en | sed 's/[[:punct:]]...
2020-11-10 14:30:49 1974
原创 RuntimeError: Address already in use
Pytorch用多张GPU训练时,会报地址已被占用的错误。其实是端口号冲突了。因此解决方法要么kill原来的进程,要么修改端口号。在代码里重新配置torch.distributed.init_process_group() dist_init_method = 'tcp://{master_ip}:{master_port}'.format(master_ip='127.0.0.1', master_port='10000') dist_world_..
2020-10-26 09:30:32 7794
原创 RuntimeError: cuda runtime error (35) : CUDA driver version is insufficient
报错原因:服务器CUDA版本和自己装pytorch 的cuda版本不一致。所以修改自己pytorch的cuda版本。查看服务器的cuda版本:nvcc -V查看自己装pytorch的cuda版本:pythonimport torchtorch.version.cuda
2020-10-22 11:05:45 2941
原创 pycharm: Unable to display frame vriables
用pycharm连接linux服务器上程序时,可以正常运行。但是不能调试,调试的时候特别卡,而且变量窗口的变量也加载不出来尝试过扩大pycharm的内存,不好使。pycharm官网给的解决方法可以有效解决:https://blog.jetbrains.com/pycharm/2012/08/gevent-debug-support/在此记录一下:file->setting->python debugger然后把Gevent compatible前面的勾打上就可以了。
2020-10-19 11:20:11 2001 3
原创 pip 安装包成功 但是import 失败
我遇到的问题是没有把包安装在虚拟环境里,以jieba包为例在虚拟环境下输入python,然后可以导入这个包。我们以为包装好了,其实这个包是安装在了基本环境里。使用conda list查看当前环境装的包的时候,其实并没有jieba这个包。conda list忘记截图了,,,所以需要使用虚拟环境的pip 安装jieba。在确认把包装在虚拟环境之后,切换到python环境也不能靠单纯敲python命令。而是要用虚拟环境的python,和前面的那个pip一样。举个例子,现在有.
2020-09-22 15:55:36 14887 1
转载 【pytorch】/libstdc++.so.6: version `CXXABI_1.3.11‘ not found
转载:https://blog.csdn.net/JianJuly/article/details/99678608以下是我搬运的内容,防止原博客删掉了。使用python导入torchvision包时,计算机报错:/libstdc++.so.6: version CXXABI_1.3.11 not found可能错误原因:libstdc++.so.6版本太低解决方法:使用更高版本的libstdc++.so具体步骤:1. 在电脑中查找更高版本libstdc++.so在自己用户目录下.
2020-09-17 17:17:45 1337
原创 libstdc++.so.6: version `GLIBCXX_3.4.21‘ not found
参考:https://github.com/BVLC/caffe/issues/4953gcc版本问题,安装libgcc就可以了conda install libgcc
2020-09-17 17:09:52 269
原创 pip在虚拟环境中安装包
激活虚拟环境后,用conda list查看安装的包存在pip。但是用pip 安装的包还是装到了全局环境中,而且这个包只能用pip,不能用conda安装。因此怎么才能把包装到虚拟环境?用虚拟环境中的pip就可以了,因为在配置.bashrc的时候,设置的是使用全局环境的pip所以这里我们用虚拟环境的pip1.找到虚拟环境的pip,我的是/home/dlge/anaconda3/envs/pytorch1.4/bin/pip2.然后就是正常安装包/home/dlge/anaco
2020-09-17 16:52:14 6020 1
原创 AttributeError: module ‘torch.utils.data‘ has no attribute ‘IterableDataset‘ & OSError: libtorch.so
新装pytorch-lighting破坏了之前的pytorch1.1版本。然后重新装回pytorch1.1,在运行程序时一直报下面这个错误:AttributeError: module 'torch.utils.data' has no attribute 'IterableDataset'进去torch.utils.data 下面确实没有这个 IterableDataset。尝试很多修复的方法包括修改data下__init__.py文件,都没有用。我的解决方法:最后我把别人相同版本.
2020-09-17 16:26:49 2720 6
原创 用于文本分类的数据增强方法
这是一篇发表在AAAI2020上的一篇文章,附上链接:https://aaai.org/ojs/index.php/AAAI/article/view/6233方法名为LAMBADA(Language Model Based Data Augmentation),核心思路为:下面看一下每个步骤具体实施的过程:选用一个分类算法在训练集上训练一个分类器。分类算法文中用了BERT,SVM和LSTM。记住这个分类器,第四步的时候要用。 这一步得到一个用于生成句子的模型:把训练集的数据组织成ySEP
2020-09-09 21:57:29 1608
原创 pytorch 更新部分参数(冻结参数)注意事项
实验的pytorch版本1.2.0在训练过程中可能需要固定一部分模型的参数,只更新另一部分参数。有两种思路实现这个目标,一个是设置不要更新参数的网络层为false,另一个就是在定义优化器时只传入要更新的参数。当然最优的做法是,优化器中只传入requires_grad=True的参数,这样占用的内存会更小一点,效率也会更高。一、设置参数为falseimport torchimport torch.nn as nnimport torch.optim as optim# 定义一个简单的网络
2020-09-09 17:24:59 25069 11
python多进程使用实例|multi_processing.py
2020-11-18
exp-amr-parsing-2.0.sh|exp-amr-parsing-2.0.sh
2020-09-08
python实现邮件收发
2020-07-16
复述添加token.txt
2019-12-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人