自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (10)
  • 收藏
  • 关注

原创 日语纠错问题 拼写纠错

目前在做日语纠错任务,主要是为了解决公司query召回率低的问题,目前可行的方案有下面几个:一个是科大讯飞的那个gector模型 ,他主要是利用了bert或者Robert来做特征提取,然后会在最后接上两个全链接网络,分别用来输出每个日语单词纠正的对象可他们本身错误的概率值信息,通过对他们的结果分别求得一个loss值来进行反向梯度传递,不断进行训练以此达到最优值,其中错误数据的是我通过罗马音和编辑距离为一的一些词进行随机的替换构成的,以此来模仿真实地错误数据。未完待续。。另外一个就是根据Be...

2021-09-01 00:13:52 525

原创 训练时loss不下降问题

1、训练集loss不下降2、测试集loss不下降3、验证集loss不下降二、epoch在100内损失出现nan可能原因以及解决三、自适应学习率设置一、训练时loss不下降问题1、训练集loss不下降   1.1 模型结构和特征工程存在问题   1.2 权重初始化方案有问题   1.3 正则化过度   1.4 选择合适的激活函数、损失函数1.5 选择合适的优化器和学习速率  1.6 训练时间不足1.7 模型训练遇到瓶颈1.8 batch size过大

2021-08-29 14:59:08 4669 2

原创 模型训练基本

pytorch训练技巧使用DataLoadersDataLoader中的workers数量允许批量并行加载。因此,您可以一次装载nb_workers个batch,而不是一次装载一个batch。loader=DataLoader(dataset,batch_size=32,shuffle=True,num_workers=10)Batch size在开始下一个优化步骤之前,将batch size增大到CPU-RAM或GPU-RAM所允许的最大范围。下一节将重点介绍如何帮助...

2021-08-29 14:58:33 346

原创 Spell Correct

一、项目背景为了对项目当中一些query的拼写错误进行修改,防止错误数据对搜索造成的影响,尝试对query进行拼写纠错,但是目前市面上的纠错方案大部分都是中文的,用在单词类别语言上效果都不太好,而且都没有主要考虑上下文之间的关系,他们更加关心混淆字以及同音字类型纠错,这些方案等价到单词类型语言时,就变成编辑距离加上词频进行纠错,但是本框架结构,不单单是挑选词频较高的单词,更加注重上下文的关系,使得纠正完成后的query更加符合用用户的意图,还有一些用BILSTM后者CNN+LSTM来做拼写纠错,但是相对

2021-08-28 19:30:55 217

原创 拼写纠错(Spelling Correct)技术方案总结

1 纠错基础知识 1.1 常见错误类型 1.2 纠错组成模块 2 深度学习技术 2.1 FASPell(爱奇艺) 2.1.1 技术方案 2.1.1.1 背景 2.1.1.2 模型结构 2.1.1.3 训练过程 2.1.2 优点和缺点 2.2 SpellGCN (阿里) 2.2.1 技术方案 2.2.1.1 背景 2.2.1.2 模型结构 2.2.1.3 训练过程 2.2

2021-09-03 17:06:42 1704

原创 基于pytorch模型剪枝的实现(极大的减少模型计算参数加快模型运行速度)

深度模型剪枝实现以及一些网络优化技巧模型剪枝:Learning Efficient Convolutional Networks Through Network Slimming (ICCV 2017). 基于论文的代码复现以及拓展: 在网络上中加入其它优化方法 最强深度学习优化器Ranger warm up与consine learning rate 为什么使用warmup? label smooth apex混合精度训练 梯度累加 其他网络部署的

2021-09-02 16:51:12 884

原创 多GPU训练半精度和单精度问题

125|0%| | 0/1 [00:00<?, ?it/s] 0%| | 0/1 [03:24<?, ?it/s]126|Traceback (most recent call last):127|File "/nfs/volume-826-2/carlos/0830_dector/ja/AA_gector-master/train.py", line 305, in <module>128|args = parser.parse_args()129|Fil...

2021-09-02 14:19:07 1779

原创 AllenNLP 用法总结

AllenNLP另外很重要的一点在于,它在torch的model的基础上添加了很多的方法,使得模型更加适用于NLP场景的使用。AllenNLP设计模型的思想在于:输出为dict格式,里面必须包含loss,其余则由我们自行决定。因此输出相比传统的pytorch模型,输出更加的丰富,我们可以把我们任何想要的信息都通过这个字典返回~model.py文件有370多行,大体上需要注意的是__init__ 里要传入vocab与regularizer get_regularization_penal

2021-09-01 20:34:06 1650

原创 评价指标汇总--------汇总

在使用机器学习算法过程中,针对不同的问题需要不用的模型评估标准,这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假负(False Negative , FN):被模型预测为负的正样本。真..

2021-09-01 00:52:21 446

原创 Python 个人总结的一些常用函数

数据集 AC错误 BD正确# -*- coding: utf-8 -*-chrome://flags/#extensions-on-chrome-urls问题: Initializing libiomp5.dylib, but found libomp.dylib already initialized.import osos.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"带颜色的字体from colorama import Fore, Ba...

2021-09-01 00:22:24 661

原创 图论

图的概念图是一种非线性的数据结构,一个图中有两类东西,一种是结点,一种是边.我们用V这个集合来表示节点(vertex),还需要另一个集合来存储所有的边,我们用E来表示(Edge),那么一个图就可以表示为:G=(V,E);带箭头的称为有向图,否则称为无向图.如果一个图的任意两个结点之间有且只有一条边,则称此图为无向完全图,若任意两个结点之间有且只有方向相反的两条边,则称为有向完全图.度是针对结点来说的, 又分为出度和入度,对于有向图来说,出度就是指以这个结点为起始的边的条数(箭头向外),入度则是以这个

2021-08-31 13:33:36 131

转载 11款程序员实用工具

优秀程序员之所以优秀的原因并不一定是他写代码的速度比所有人都快,但他解决事情的效率一定是比很多人都要高的,提升工作效率的方法并不需要我们十八般武艺样样精通,有时候使用好的工具就能帮助我们大大提升办事效率。今天给大家分享11个程序员建议收藏的工具,老少皆宜,尤其是新手程序员,技术水平一时半会儿可能难以提升,需要持之以恒地学习和练习,但工具用得好,做事效率是可以快速提升的。一、CSDN浏览器助手(开发者必备的浏览器插件)这是CSDN官方推出的一款浏览器插件,也是我一直在用的一款比较不错的工具,我这里没

2021-08-29 15:28:27 774

原创 GOOGLE 谷歌翻译实现

1、访问速度太快被封req = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(req)data = response.read().decode('utf-8')2、稳定但是速度太慢response,prediction = translator.translate(content, dest='es',src='es')3、速度稍微快一些url_encode_...

2021-08-29 15:01:07 116

原创 Transformer Encoder

ERNIE 采用了 Transformer Encoder 作为其语义表示的骨架。Transformer 是由论文Attention is All You Need首先提出的机器翻译模型,在效果上比传统的 RNN 机器翻译模型更加优秀。Transformer 的简要结构如图1所示,基于 Encoder-Decoder 框架, 其主要结构由 Attention(注意力) 机制构成:Encoder 由全同的多层堆叠而成,每一层又包含了两个子层:一个Self-Attention层和一个前馈神经网络。Self.

2021-08-29 15:00:17 461

原创 OS X El Capitan 10.11开启性能模式

要在OSXElCapitan10.11及更高版本中开启性能模式,请使用nvram命令来调整boot-argsNVRAM变量。如果您重置NVRAM,该设置也将被清除。以下命令会显示boot-argsNVRAM变量。如果您看到serverperfmode=1,则说明性能模式已开启。nvramboot-args如果性能模式尚未开启,您可以在boot-argsNVRAM变量中使用以下命令来设置serverperfmode=1,从而启用该模式:sudonvr...

2021-08-29 14:56:17 243

原创 Seq2Labels 模型结构

Seq2Labels( (text_field_embedder): BasicTextFieldEmbedder( (token_embedder_bert): PretrainedBertEmbedder( (bert_model): BertModel( (embeddings): BertEmbeddings( (word_embeddings): Embedding(21128, 768, padding_idx=0) ...

2021-08-28 19:57:33 183

原创 Docker

Linux系统分为两种:1.RedHat系列:Centos、Redhat、Fedora等 RedHat系列的包管理工具是yum2.Debian系列:Ubuntu、Debian、等 Debian系列的包管理工具是apt-get 鲁班 UbuntuCentOS的软件安装工具不是apt-get是yum #yum-yinstallgccubuntu下安装SSH可以: apt-getinstal...

2021-08-28 19:56:16 99

原创 Linux命令

linux启动后环境变量加载的顺序为:etc/profile → /etc/profile.d/*.sh → ~/.bash_profile → ~/.bashrc → [/etc/bashrc]https://www.cnblogs.com/xuxinstyle/p/9609551.html 50个常用命令~也表示为 home 目录 的意思,.则是表示目前所在的目录,..则表示目前目录位置的上一层目录cat/etc/redhat-release 查看CentOS版本...

2021-08-28 19:55:15 208

原创 NLP 任务类别

index English Chinese1 Automatic speech recogniton 自动语音识别2 CCG supertagging CCG 超级标记3 Common sense 常识4 Constituency parsing 选区分析5 Coreference resolution 共指消解6 Dependency parsing 依存关系句法分析7 Dialogue 对话8 Domain adaptation 领域自适应9 Entity lin..

2021-08-28 19:50:57 187 1

原创 编码格式

str1 = '\'".,,。!!`~·@#¥$%……^-——+=*\/|:?《》【】[]{}()()<>巴拉1123ABCXYacdxyzZáéõÑ' # 全所有字符号西班牙中所有符号áéíóúüñ¡¿ÁÉÍÓÚÜÑÂÊÔÃÕÀàãÇçôöêâäõa-zA-Z Unicode(UTF-8) UTF-8 阿拉伯语(Windows-1256) windows-1256 中欧Latin-2...

2021-08-28 19:49:22 188

原创 NLP主要内容

文章目录目录 〇、推荐 一、人工智能学习算法分类 1. 纯算法类 2.建模方面 二、详细算法 1.分类算法 2.回归算法 3.聚类算法 4.降维算法 5.概率图模型算法 6.文本挖掘算法 7.优化算法 8.深度学习算法 三、建模方面 1.模型优化· 2.数据预处理 〇、推荐无意中发现了一个巨牛的人工智能教程,忍不住分享一下给大家。教程不仅是零基础,通俗易懂,而且非常风趣幽默,像看小说一样!觉得太牛了,所以分享给大家。点这里可以跳转到教程。

2021-08-28 19:46:58 172

原创 BERT 理解

BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。作为一个Word2Vec的替代者,其在NLP领域的11个方向大幅刷新了精度,可以说是近年来自残差网络最优突破性的一项技术了。可以调整的参数和取值范围有:

2021-08-28 19:44:39 522

原创 PyCorrector——中文语言纠错模型 文本纠错工具

谐音字词,如配副眼睛-配副眼镜混淆音字词,如流浪织女-牛郎织女字词顺序颠倒,如伍迪艾伦-艾伦伍迪字词补全,如爱有天意-假如爱有天意形似字错误,如高梁-高粱中文拼音全拼,如xingfu-幸福中文拼音缩写,如sz-深圳语法错误,如想象难以-难以想象1.use kenlm1.1 kenlm打分1.2 分词1.3 (2或3_gram)打分1.4 numpy矩阵处理2.编辑距离3.pandas use pycorrector错误检测...

2021-08-28 19:40:16 1793

原创 正确率,精确率,召回率.

样本为负被预测为正的应该用FP而不是FN。这样理解P代表目前所有结果显示是1 N代表目前所有结果显示是0N=negative、P=positive、T=true、F=false。TF是预测为正负,NP为实际正负。假设我们手上有60个正样本,40个负样本,我们要找出所有的正样本,系统查找出50个,其中只有40个是真正的正样本,计算上述各指标。TP: 将正类预测为正类数 40 正确的正类FN: 将正类预测为负类数 20 错误的负类FP: 将负类预测为正类数 10 错误的正类TN: 将负类预...

2021-08-28 19:37:13 750

原创 SOFT-MASK-BERT    总结

SOFT-MASK-BERT 总结

2021-05-14 19:57:00 475

原创 2020-12-19

pycharm永久激活 非激活码 下单后自动发货 最新版本至2020.3

2020-12-19 00:41:37 160 4

原创 接口继承与实现

interface是定义接口的关键字,所谓的接口说白了就是一个规则,用电脑的USB插口打个比方public interface USB接口{这个接口只能插标准USB接口();/*所谓接口中的方法就是定义了个规范,而我这个标准USB接口中要插鼠标还是优盘,那就是在你的实现类中根据具体情况来看了*/}而implement就是实现接口的关键字,你要是现实了一个接口,那就必须实现里...

2019-08-08 14:49:22 697

原创 第一次写博客

    第一次写博客。。

2018-03-23 15:28:26 102

NLP资源汇总——自己整理

NLP资源汇总——自己整理

2021-08-31

用深度强化学习玩雅达利-------汇总

用深度强化学习玩雅达利-------汇总

2021-08-31

深度学习的研究论文——汇总

深度学习的研究论文——汇总 感谢大家支持

2021-08-31

GAN生成对抗网络汇总————GAN生成对抗网络.docx

GAN生成对抗网络汇总

2021-08-29

LSTM网络汇总——LSTM网络.docx

LSTM网络

2021-08-29

git 所有汇总命令总结git命令.doc

git 所有汇总命令总结

2021-08-29

排序算法总结排序算法.png

排序算法总结

2021-08-29

自动写诗机器人Lishangyin.zip

自动写诗机器人

2021-08-29

增强生成模型项目具体实现

增强生成模型项目具体实现

2021-08-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除