自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

yc星光

记录笔记

  • 博客(24)
  • 收藏
  • 关注

原创 nvidia显卡型号规格

统计下部分显卡型号规格

2023-09-07 16:09:59 1100

转载 NVIDIA MPS总结

多进程服务(Multi-Process Scheduling)是 CUDA 应用程序编程接口(API)的替代二进制兼容实现。从 Kepler 的 GP10 架构开始,NVIDIA就引入了(基于软件的多进程服务),这种技术在当时实际上是称为,允许多个流(stream)或者 CPU 的进程同时向 GPU 发射 Kernel 函数,结合为一个单一应用程序的上下文在 GPU 上运行,从而实现更好的 GPU 利用率。在单个进程的任务处理,对 GPU 利用率不高的情况下是非常有用的。

2023-08-31 12:04:35 2100 1

原创 修改Linux时区

如果安装系统时没有设置时区,系统将使用默认UTC时区。在Linux上,有两种方式修改时区,分别为 timedatectl 修改 和 软连接修改。

2023-08-30 16:17:27 10807

原创 机器翻译评测---multi-bleu

在机器翻译中,经常使用中的 mosesdecoder/scripts/generic/multi-bleu.perl 来评测模型的 bleu,只关注最后的bleu得分,而忽略计算过程。

2023-08-02 20:57:15 343

转载 flask部署服务

说明:我们定义了一个get_result()函数,对应的请求是ip:port/split_words。在__main__中,我们引入了model.py的JiebaModel类,然后加载了模型,并在get_result()中调用。get_split_word_result 是调用之前 flask 启动的服务,通过requests发送post请求,请求数据编码成utf-8的格式,最后得到响应,并利用.text得到结果。为了方便起见,这里我们就使用简单的分词模型,相关代码如下:model.py。

2023-06-05 20:49:22 510

转载 python获取主机ip

是利用 UDP 协议来实现的,生成一个UDP包,把自己的 IP 放如到 UDP 协议头中,然后从UDP包中获取本机的IP。这个方法并不会真实的向外部发包,所以用抓包工具是看不到的。但是会申请一个 UDP 的端口,所以如果。在工作中,经常需要获取服务器ip,人工设置太繁琐,于是直接使用脚本自动获取。起来,性能可以获得很大提升。1、在 shell 中运行。的,这里如果需要可以。

2023-06-05 17:59:29 356

原创 linxu去除一个文件中包含另一个文件的行

1)print} 指读取第二个参数(b.txt)的内容,如果在变量 a 中的值不为1(及不在 a.txt ),那么打印出来;在工作中遇到大型文件去除相同内容,利用 python 效率较低,直接使用 linux 命令更效率,现有两个文件 a.txt。NR==FNR{a[$0]=1} 指读取第一个参数(a.txt)的内容存到变量 a 中,并赋值 1;这里使用 -v、-w、-f 三个参数。= 变为 == 即可。下面是 grep 的一些参数。下面是 awk 的一些参数。的内容,将 -v 去掉。

2023-04-24 20:48:54 337

原创 python实现txt与docx互转

需要安装 python 的 docx 库。

2023-04-23 16:14:19 648

转载 SSH连接出现错误 WARNING REMOTE HOST IDENTIFICATION HAS CHANGED

1、找到 know_hosts 位置(上图红色框就是),找到有问题的 ip(10.7.67.43)所在行删除。本文出现问题时第二个原因,重装系统导致 host key 改变。2、找到 know_hosts 位置,对所有的进行删除。2、host key 改变(一般重装系统出现)3、移除有问题的 ip key。

2023-04-23 15:06:58 809

转载 Htop在Centos7的安装

htop是Linux系统下一个基本文本模式的、交互式的进程查看器,主要用于控制台或shell中,可以替代top,或者说是top的高级版。1) 快速查看关键性能统计数据,如CPU(多核布局)、内存/交换使用;2) 可以横向或纵向滚动浏览进程列表,以查看所有的进程和完整的命令行;3) 杀掉进程时可以直接选择而不需要输入进程号;4) 通过鼠标操作条目;5) 比top启动得更快。

2023-04-17 18:07:29 3219

原创 各国语言代码

在翻译工作中,经常遇到不同国家的语言代码,这里收集了一些以便日后查阅维基百科

2023-04-07 16:48:11 983 3

原创 机器翻译——mosesdecoder

1.mosesmoses是由英国爱丁堡大学、德国亚琛工业大学等8家单位联合开发的一个基于短语的统计机器翻译系统。本文主要介绍 mosesdecoder 中的 tokenizergithub地址2.安装及使用2.1 安装直接 clone 上面 githubgit clone https://github.com/moses-smt/mosesdecoder.git2.2 tokenizer 使用进入tokenizer.perl所在目录cd mosesdecoder/scripts/t

2021-11-23 09:45:51 1069

转载 去除html标签等

去除html标签等很多时候网页中采用正则或者xpath提取数据内容的方式是很好的,但是对于不确定网页内容结构,可以采用xpath提取更大范围的div,然后去除一切标签来提取数据。import re def filter_tags(htmlstr): #先过滤CDATA re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA re_script=re.compile('<\s*scri

2021-11-18 16:13:43 205

原创 机器翻译——fairseq 安装(一)

1 . Fairseq 简介Fairseq 是一个用 PyTorch 编写的序列建模工具包,它可以为翻译、摘要、语言建模和其他文本生成任务训练自定义模型。特点:多GPU训练使用多种搜索算法在 CPU 和 GPU 上快速生成在单个 GPU 上,gradient accumulation可以使用大的小批量进行训练可扩展:轻松注册新 models , criterions , tasks , optimizers and learning rate schedulers混合精度训练fu

2021-11-17 21:29:26 13156 9

原创 评价指标(一)

在倾向于 Precision的分类任务场景下,常使用 F0.5 - score,或α1\alpha<1α1的其它值;在倾向于 Recall的分类任务场景下,常使用 F2 - score,或α1\alpha>1α1的其它值;在Precision 与 Recall 同等重要的分类任务场景下,常使用 F1 - score。

2021-02-09 16:03:39 2277

原创 文本语种检测---langid

langid github源码:https://github.com/saffsd/langid.py 特点 支持97中语言滤过速度快准确率高不支持中文繁体(香港),中文繁体(台湾) 检测接口 classify rank >>> import langid...

2021-01-26 11:25:05 4032 4

转载 srilm训练语言模型

SRILM来建立语言模型: ngram-count -text ${text} -vocab ${vocab} -order 2 -sort -tolower -lm ${arpa} 官方参数说明: http://www.speec...

2020-11-06 15:35:24 801

转载 纠错——拼写纠错

1. 引言 拼写检查是一个非常底层的自然语言处理方面的任务。多用在信息检索、输入法等,其实也可以扩展到寻找同义词等相关领域。这里我们主要针对英文、中文中的拼写检查的方法,进行一个简要的概述,因为这方面是一个很热门的研究方向,所以材料很多,我们只是进行入门介绍。 2. 英文拼写纠错...

2020-10-23 16:14:05 2230 2

转载 在win10下生成github ssh key

一、引子:什么是ssh:ssh是Secure Shell(安全外壳协议)的缩写,建立在应用层和传输层基础上的安全协议。为了便于访问github,要生成ssh公钥,这样就不用每一次访问github都要输入用户名和密码。二、生成条件:请在github上先注册账号,本地安装git。三、生成步骤:1、本地成功安装了git后,打开Git Bash。2、 键入命令:ssh-keygen ...

2019-09-05 16:21:41 6228 3

转载 在win10上安装git

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

2019-09-05 15:57:33 336

转载 Few-shot Learning

原文:https://www.jianshu.com/p/a70869bb6e55【领域报告】小样本学习年度进展|VALSE2018 https://zhuanlan.zhihu.com/p/38246454零/小样本以及开集条件下的社交媒体分析 https://blog.csdn.net/XWUkefr2tnh4/article/details/79021641当小样...

2019-08-29 10:38:57 936

转载 文本聚类-LDA

原地址:https://blog.csdn.net/worryabout/article/details/79792835 ...

2019-07-17 16:00:06 1230

转载 从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史

https://zhuanlan.zhihu.com/p/49271699

2019-03-20 11:40:02 199

转载 NLP:命名实体识别(NER)

NLP:命名实体识别(NER)1.NER相关简介1.1概念1.2分类2.关于NER的方法(概述)2.1基于规则的方法2.1.1概念相关2.1.2优缺点2.2基于模型的方法2.2.1基于传统机器学习的方法2.2.2基于深度学习的方法(主要)1.NER相关简介1.1概念命名实体识别(Named EntitiesRecognition, NER)是自然语言处理(Natural LanguagePr...

2019-03-19 20:49:21 1537

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除