python
文章平均质量分 58
彭伟_02
Ph.D NLP in AI
展开
-
python 正则表达式
re.sub() 批量替换字符串中某个字符,如:将'hello word'替换成'HELLO word'。re.fildall() 对整个字符串从左到右进行匹配,返回所有匹配对象的列表。re.compile() 对整个正则表达式进行预编译,生成表达式对象,用于。,任何位置都可以被匹配,返回的是第一次出现的匹配对象(因为正则字符串中可能会多出匹配)。re.split()方法与字符串的切割方法一样,返回的是一个列表。,如果匹配成功,就返回一个匹配对象,如果匹配失败,就返回。4、re.compile()介绍。转载 2022-11-24 17:06:09 · 279 阅读 · 0 评论 -
安装python包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None))
问题:安装包出现Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError解决办法:pip install boto3 -i http://pypi.douban.com/simple --trusted-host pypi.douban.com国内一些源:阿里云 http://mirrors.aliyu原创 2021-04-25 11:02:52 · 542 阅读 · 4 评论 -
Git的基本流程、git reset 命令行
Git的基本流程以及reset等操作这一篇博客对git操作的基本流程以及,命令git reset 进行介绍1.Git的基本流程Git的流程,一般来说,Git会有三个区域:工作区 --> 当前状态暂存区 -->使用git add ,就可以添加到Stage里面版本库 -->提交历史,使用git commit的结果刚开始 working tree 、 index 与 repository(HEAD)里面的內容都是一致的git reset –soft 可以把版本库上的提原创 2021-03-22 14:54:24 · 305 阅读 · 1 评论 -
BERT,XLNET分词方法bpe,unigram等介绍
BERT,XLNET等分词方法先给一个结论吧,BERT,GPT使用的是wordpiece的分词方法,XLNET和transformer-xl使用的是sentencepiece的切分方法。概述在NLP中,分词的形式越来越多,从最开始的字切分,词切分,发展到更细粒度的BPE,以及跨语言的sentencepiece等等的切分方法。子词层面的切分方法是一种有效的文本切分方法,该方法可以有效的减小词表大小,并且让所有的词都能够被覆盖,并且使得且分开的子词都携带一定的含义,这就有效的解决了当前机器阅读文本所遇到原创 2020-12-20 22:24:15 · 5232 阅读 · 1 评论 -
python可视化 matplotlib画图使用colorbar工具自定义颜色
python matplotlib画图使用colorbar工具自定义颜色colorbar(draw colorbar without any mapple/plot)自定义colorbar可以画出任何自己想要的colorbar,自由自在、不受约束,不依赖于任何已有的图(plot/mappable)。这里使用的是mpl.colorbar.ColorbarBase类,而colorbar类必须依赖于已有的图。参数可以参考下面的描述->matplotlib:class matplotlib.color原创 2020-12-04 09:43:05 · 10887 阅读 · 8 评论 -
pycharm远程调试 No such file or directory
pycharm远程调试 No such file or directory在用远程调试的时候,报错:ssh:@******:22/home/anaconda3/envs/python36/bin/python3.6 -u D:/Projects/train.pybash: line 0: cd: D:/Projects/***: No such file or directory/home/anaconda3/envs/python36/bin/python3.6: can't open file原创 2020-10-26 14:27:37 · 6305 阅读 · 5 评论 -
roc_curve(),ROC曲线,混淆矩阵,开集闭集等概念
ROC在分类任务中,经常基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例比例。实际上,这样的度量错误掩盖了样例如何被分错的事实。在机器学习中,有一个普遍适用的称为混淆矩阵(confusion matrix)的工具,它可以帮助人们更好地了解分类中的错误。混淆矩阵我们举个列子,并画出混淆矩阵表,假如宠物店有10只动物,其中6只狗,4只猫,现在有一个分类器将这10只动物进行分类,分类结果为5只狗,5只猫,那么我们画出分类结果混淆矩阵,并进行分析,如下(我们把狗作为正类):如果原创 2020-08-02 14:03:33 · 9401 阅读 · 0 评论 -
机器翻译--Moses脚本进行数据处理,Bleu值计算
机器翻译–Moses脚本进行数据处理,Bleu值计算数据预处理包括标点规范化,分词,大小写字母等;Blue值计算使用perl直接计算。Moses这是一个很强大的数据预处理工具,虽然已经用了很多年了,但现在依然非常流行。github地址,主要使用里面的perl脚本进行数据预处理。确保电脑上已经安装配置好了perl(ubuntu自带)。很多人做数据预处理都会用到BPE算法,30000个子词几...原创 2020-02-26 16:43:35 · 2945 阅读 · 2 评论 -
pytorch 多标签分类以及BCEloss
什么是多标签分类学习过机器学习的你,也许对分类问题很熟悉。比如下图:image.png图片中是否包含房子?你的回答就是有或者没有,这就是一个典型的二分类问题。image.png同样,是这幅照片,问题变成了,这幅照片是谁拍摄的?备选答案你,你的父亲,你的母亲?这就变成了一个多分类问题。image.png但今天谈论的多标签是什么呢?如果我问你上面...转载 2019-11-15 10:35:13 · 16629 阅读 · 7 评论 -
pytorch tensor索引、切片、连接——Indexing, Slicing, Joining
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...转载 2019-11-05 15:00:59 · 2038 阅读 · 0 评论 -
pytorch 多卡GPU & 加载参数文件的坑RuntimeError: Error(s) in loading state_dict for ××××××
《pytorch 多卡GPU & 加载参数文件的坑RuntimeError: Error(s) in loading state_dict for ××××××》1、多卡GPU多卡训练的基本过程首先把模型加载到一个主设备把模型只读复制到多个设备把大的batch数据也等分到不同的设备最后将所有设备计算得到的梯度合并更新主设备上的模型参数通过下面例子给一个完成代码:#!/u...原创 2019-10-28 12:11:48 · 1428 阅读 · 4 评论 -
使用pip出现/bin/python: bad interpreter: No such file or directory:
使用pip出现/bin/python: bad interpreter: No such file or directory:scp -P 22 -r /home/***/anaconda3/envs/py35 pengwei@192.168.******:/home/***/.conda/envs/which pip/home/pengwei/.conda/envs/py35/bin/pi...原创 2019-08-07 11:48:57 · 9912 阅读 · 1 评论 -
python中的logging使用方法
转自https://www.cnblogs.com/deeper/p/7404190.html <div id="post_detail"> 以打印日志为荣之logging模块详细使用 啄木鸟社区里的Pythonic八荣八耻有一条:以打印日志为荣 , 以单步跟踪为耻;很多程序都有记录日志的需求,并且日志中包含的信息既有...转载 2019-08-06 09:48:27 · 4671 阅读 · 1 评论 -
pyhon open()文件操作
open/文件操作f=open(’/tmp/hello’,‘w’)#open(路径+文件名,读写模式)#读写模式:r只读,r+读写,w新建(会覆盖原有文件),a追加,b二进制文件.常用模式如:‘rb’,‘wb’,'r+b’等等读写模式的类型有:rU 或 Ua 以读方式打开, 同时提供通用换行符支持 (PEP 278)w 以写方式打开,a 以追加模式打开 (从 EOF...转载 2019-07-18 08:39:51 · 333 阅读 · 0 评论 -
pytorch--matmul、mm和bmm的区别
...原创 2019-07-09 16:02:40 · 18708 阅读 · 0 评论 -
pytorch 一个坑点Expected object of backend CPU but got backend CUDA for sequence element 1 in sequence
跑程序的时候有时出现下列问题:Expected object of backend CPU but got backend CUDA for sequence element 1 in sequence argument at position #1 ‘tensors’ ...转载 2019-06-25 15:54:26 · 13820 阅读 · 2 评论 -
编码问题UnicodeEncodeError: 'ascii' codec can't encode characters in ordinal not in range(128)
问题一:在服务器上运行代码print(sentence)sentence是中文字符报错:UnicodeEncodeError: ‘ascii’ codec can’t encode characters in ordinal not in range(128)import syssys.stdout.encoding如果不是utf-8格式,命令行敲入export LANG=“en...原创 2019-05-17 13:21:02 · 518 阅读 · 0 评论