Carlosi-CSDN博客

原创日语纠错问题拼写纠错

目前在做日语纠错任务，主要是为了解决公司query召回率低的问题，目前可行的方案有下面几个：一个是科大讯飞的那个gector模型，他主要是利用了bert或者Robert来做特征提取，然后会在最后接上两个全链接网络，分别用来输出每个日语单词纠正的对象可他们本身错误的概率值信息，通过对他们的结果分别求得一个loss值来进行反向梯度传递，不断进行训练以此达到最优值，其中错误数据的是我通过罗马音和编辑距离为一的一些词进行随机的替换构成的，以此来模仿真实地错误数据。未完待续。。另外一个就是根据Be...

2021-09-01 00:13:52 705

原创训练时loss不下降问题

1、训练集loss不下降2、测试集loss不下降3、验证集loss不下降二、epoch在100内损失出现nan可能原因以及解决三、自适应学习率设置一、训练时loss不下降问题1、训练集loss不下降 1.1 模型结构和特征工程存在问题 1.2 权重初始化方案有问题 1.3 正则化过度 1.4 选择合适的激活函数、损失函数1.5 选择合适的优化器和学习速率 1.6 训练时间不足1.7 模型训练遇到瓶颈1.8 batch size过大

2021-08-29 14:59:08 5009 2

原创模型训练基本

pytorch训练技巧使用DataLoadersDataLoader中的workers数量允许批量并行加载。因此，您可以一次装载nb_workers个batch，而不是一次装载一个batch。loader=DataLoader(dataset,batch_size=32,shuffle=True,num_workers=10)Batch size在开始下一个优化步骤之前，将batch size增大到CPU-RAM或GPU-RAM所允许的最大范围。下一节将重点介绍如何帮助...

2021-08-29 14:58:33 403

原创 Spell Correct

一、项目背景为了对项目当中一些query的拼写错误进行修改，防止错误数据对搜索造成的影响，尝试对query进行拼写纠错,但是目前市面上的纠错方案大部分都是中文的，用在单词类别语言上效果都不太好，而且都没有主要考虑上下文之间的关系，他们更加关心混淆字以及同音字类型纠错，这些方案等价到单词类型语言时，就变成编辑距离加上词频进行纠错，但是本框架结构，不单单是挑选词频较高的单词，更加注重上下文的关系，使得纠正完成后的query更加符合用用户的意图，还有一些用BILSTM后者CNN+LSTM来做拼写纠错，但是相对

2021-08-28 19:30:55 286

原创拼写纠错（Spelling Correct）技术方案总结

1 纠错基础知识 1.1 常见错误类型 1.2 纠错组成模块 2 深度学习技术 2.1 FASPell（爱奇艺） 2.1.1 技术方案 2.1.1.1 背景 2.1.1.2 模型结构 2.1.1.3 训练过程 2.1.2 优点和缺点 2.2 SpellGCN （阿里） 2.2.1 技术方案 2.2.1.1 背景 2.2.1.2 模型结构 2.2.1.3 训练过程 2.2

2021-09-03 17:06:42 2031

原创基于pytorch模型剪枝的实现（极大的减少模型计算参数加快模型运行速度）

深度模型剪枝实现以及一些网络优化技巧模型剪枝：Learning Efficient Convolutional Networks Through Network Slimming (ICCV 2017). 基于论文的代码复现以及拓展：在网络上中加入其它优化方法最强深度学习优化器Ranger warm up与consine learning rate 为什么使用warmup? label smooth apex混合精度训练梯度累加其他网络部署的

2021-09-02 16:51:12 981

原创多GPU训练半精度和单精度问题

125|0%| | 0/1 [00:00<?, ?it/s] 0%| | 0/1 [03:24<?, ?it/s]126|Traceback (most recent call last):127|File "/nfs/volume-826-2/carlos/0830_dector/ja/AA_gector-master/train.py", line 305, in <module>128|args = parser.parse_args()129|Fil...

2021-09-02 14:19:07 1915

原创 AllenNLP 用法总结

AllenNLP另外很重要的一点在于，它在torch的model的基础上添加了很多的方法，使得模型更加适用于NLP场景的使用。AllenNLP设计模型的思想在于：输出为dict格式，里面必须包含loss，其余则由我们自行决定。因此输出相比传统的pytorch模型，输出更加的丰富，我们可以把我们任何想要的信息都通过这个字典返回~model.py文件有370多行，大体上需要注意的是__init__ 里要传入vocab与regularizer get_regularization_penal

2021-09-01 20:34:06 1766

原创评价指标汇总--------汇总

在使用机器学习算法过程中，针对不同的问题需要不用的模型评估标准，这里统一汇总。主要以两大类分类与回归分别阐述。一、分类问题混淆矩阵是监督学习中的一种可视化工具，主要用于比较分类结果和实例的真实信息。矩阵中的每一行代表实例的预测类别，每一列代表实例的真实类别。真正(True Positive , TP)：被模型预测为正的正样本。假正(False Positive , FP)：被模型预测为正的负样本。假负(False Negative , FN)：被模型预测为负的正样本。真..

2021-09-01 00:52:21 512

原创 Python 个人总结的一些常用函数

数据集 AC错误 BD正确# -*- coding: utf-8 -*-chrome://flags/#extensions-on-chrome-urls问题： Initializing libiomp5.dylib, but found libomp.dylib already initialized.import osos.environ["KMP_DUPLICATE_LIB_OK"]="TRUE"带颜色的字体from colorama import Fore, Ba...

2021-09-01 00:22:24 808

原创图论

图的概念图是一种非线性的数据结构,一个图中有两类东西，一种是结点，一种是边.我们用V这个集合来表示节点（vertex），还需要另一个集合来存储所有的边，我们用E来表示(Edge)，那么一个图就可以表示为：G=(V,E);带箭头的称为有向图,否则称为无向图.如果一个图的任意两个结点之间有且只有一条边，则称此图为无向完全图，若任意两个结点之间有且只有方向相反的两条边，则称为有向完全图.度是针对结点来说的，又分为出度和入度,对于有向图来说，出度就是指以这个结点为起始的边的条数（箭头向外），入度则是以这个

2021-08-31 13:33:36 170

转载 11款程序员实用工具

优秀程序员之所以优秀的原因并不一定是他写代码的速度比所有人都快，但他解决事情的效率一定是比很多人都要高的，提升工作效率的方法并不需要我们十八般武艺样样精通，有时候使用好的工具就能帮助我们大大提升办事效率。今天给大家分享11个程序员建议收藏的工具，老少皆宜，尤其是新手程序员，技术水平一时半会儿可能难以提升，需要持之以恒地学习和练习，但工具用得好，做事效率是可以快速提升的。一、CSDN浏览器助手（开发者必备的浏览器插件）这是CSDN官方推出的一款浏览器插件，也是我一直在用的一款比较不错的工具，我这里没

2021-08-29 15:28:27 897

原创 GOOGLE 谷歌翻译实现

1、访问速度太快被封req = urllib.request.Request(url=url, headers=headers)response = urllib.request.urlopen(req)data = response.read().decode('utf-8')2、稳定但是速度太慢response,prediction = translator.translate(content, dest='es',src='es')3、速度稍微快一些url_encode_...

2021-08-29 15:01:07 178

原创 Transformer Encoder

ERNIE 采用了 Transformer Encoder 作为其语义表示的骨架。Transformer 是由论文Attention is All You Need首先提出的机器翻译模型，在效果上比传统的 RNN 机器翻译模型更加优秀。Transformer 的简要结构如图1所示，基于 Encoder-Decoder 框架, 其主要结构由 Attention(注意力) 机制构成：Encoder 由全同的多层堆叠而成，每一层又包含了两个子层：一个Self-Attention层和一个前馈神经网络。Self.

2021-08-29 15:00:17 602

原创 OS X El Capitan 10.11开启性能模式

要在OSXElCapitan10.11及更高版本中开启性能模式，请使用nvram命令来调整boot-argsNVRAM变量。如果您重置NVRAM，该设置也将被清除。以下命令会显示boot-argsNVRAM变量。如果您看到serverperfmode=1，则说明性能模式已开启。nvramboot-args如果性能模式尚未开启，您可以在boot-argsNVRAM变量中使用以下命令来设置serverperfmode=1，从而启用该模式：sudonvr...

2021-08-29 14:56:17 308

原创 Seq2Labels 模型结构

Seq2Labels( (text_field_embedder): BasicTextFieldEmbedder( (token_embedder_bert): PretrainedBertEmbedder( (bert_model): BertModel( (embeddings): BertEmbeddings( (word_embeddings): Embedding(21128, 768, padding_idx=0) ...

2021-08-28 19:57:33 239

原创 Docker

Linux系统分为两种：1.RedHat系列：Centos、Redhat、Fedora等 RedHat系列的包管理工具是yum2.Debian系列：Ubuntu、Debian、等 Debian系列的包管理工具是apt-get 鲁班 UbuntuCentOS的软件安装工具不是apt-get是yum #yum-yinstallgccubuntu下安装SSH可以： apt-getinstal...

2021-08-28 19:56:16 139

原创 Linux命令

linux启动后环境变量加载的顺序为：etc/profile → /etc/profile.d/*.sh → ~/.bash_profile → ~/.bashrc → [/etc/bashrc]https://www.cnblogs.com/xuxinstyle/p/9609551.html 50个常用命令~也表示为 home 目录的意思，.则是表示目前所在的目录，..则表示目前目录位置的上一层目录cat/etc/redhat-release 查看CentOS版本...

2021-08-28 19:55:15 262

原创 NLP 任务类别

index English Chinese1 Automatic speech recogniton 自动语音识别2 CCG supertagging CCG 超级标记3 Common sense 常识4 Constituency parsing 选区分析5 Coreference resolution 共指消解6 Dependency parsing 依存关系句法分析7 Dialogue 对话8 Domain adaptation 领域自适应9 Entity lin..

2021-08-28 19:50:57 245 1

原创编码格式

str1 = '\'".，,。!！`~·@#￥$%……^-——+=*\/|:?《》【】[]{}()（）<>巴拉1123ABCXYacdxyzZáéõÑ' # 全所有字符号西班牙中所有符号áéíóúüñ¡¿ÁÉÍÓÚÜÑÂÊÔÃÕÀàãÇçôöêâäõa-zA-Z Unicode（UTF-8） UTF-8 阿拉伯语（Windows-1256） windows-1256 中欧Latin-2...

2021-08-28 19:49:22 290

原创 NLP主要内容

文章目录目录〇、推荐一、人工智能学习算法分类 1. 纯算法类 2.建模方面二、详细算法 1.分类算法 2.回归算法 3.聚类算法 4.降维算法 5.概率图模型算法 6.文本挖掘算法 7.优化算法 8.深度学习算法三、建模方面 1.模型优化· 2.数据预处理〇、推荐无意中发现了一个巨牛的人工智能教程，忍不住分享一下给大家。教程不仅是零基础，通俗易懂，而且非常风趣幽默，像看小说一样！觉得太牛了，所以分享给大家。点这里可以跳转到教程。

2021-08-28 19:46:58 228

原创 BERT 理解

BERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。作为一个Word2Vec的替代者，其在NLP领域的11个方向大幅刷新了精度，可以说是近年来自残差网络最优突破性的一项技术了。可以调整的参数和取值范围有：

2021-08-28 19:44:39 598

Lmoermo的博客

原创日语纠错问题拼写纠错

原创训练时loss不下降问题

原创模型训练基本

原创 Spell Correct

原创拼写纠错（Spelling Correct）技术方案总结

原创基于pytorch模型剪枝的实现（极大的减少模型计算参数加快模型运行速度）

原创多GPU训练半精度和单精度问题

原创 AllenNLP 用法总结

原创评价指标汇总--------汇总

原创 Python 个人总结的一些常用函数

原创图论

转载 11款程序员实用工具

原创 GOOGLE 谷歌翻译实现

原创 Transformer Encoder

原创 OS X El Capitan 10.11开启性能模式

原创 Seq2Labels 模型结构

原创 Docker

原创 Linux命令

原创 NLP 任务类别

原创编码格式

原创 NLP主要内容

原创 BERT 理解

原创 PyCorrector——中文语言纠错模型文本纠错工具

原创正确率，精确率，召回率.

原创 SOFT-MASK-BERT 总结

原创 2020-12-19

原创接口继承与实现

原创第一次写博客

git 所有汇总命令总结git命令.doc

GAN生成对抗网络汇总————GAN生成对抗网络.docx

NLP资源汇总——自己整理

深度学习的研究论文——汇总

用深度强化学习玩雅达利-------汇总

增强生成模型项目具体实现

自动写诗机器人Lishangyin.zip

排序算法总结排序算法.png

LSTM网络汇总——LSTM网络.docx

空空如也