字符级中文Albert语言模型（pytorch）预训练

github_34897521

已于 2022-04-20 22:56:18 修改

阅读量3.2k

点赞数 1

分类专栏： NLP 语言模型文章标签： python nlp 语言模型

于 2022-04-20 21:45:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_34897521/article/details/124307784

版权

本文介绍如何以字符级别训练Albert语言模型，避免词级别分词带来的问题。通过预处理步骤，包括停用分词、生成字典和语料预处理，实现领域文本的更准确处理。

摘要由CSDN通过智能技术生成

摘要

网上所公布的中文预训练模型基本采用了词级别的形式，表现出来就是在输入预处理阶段，中文先被分词，然后嵌入为向量。对于领域类的文本处理，分词的预处理反而依赖分词工具，对于术语词语存在被意外切分的情况，直接破坏原有语义。因此曾经在研究生期间，针对领域类的自然语言处理，尝试用字符级别的形式训练Albert语言模型，下游任务指标也有一定的提升。
本文将以字符级别对Albert语言模型进行预训练，并进行应用。

模型准备

本文的albert模型使用如下命令进行下载：

git clone https://github.com/lonePatient/albert_pytorch

然后安装好必要的依赖。

（新的模型不需要了）停用分词预处理

对项目中的model/tokenization_albert.py文件的convert_by_vocab函数，直接改为：

def convert_by_vocab(vocab,itmes):
	<

最低0.47元/天解锁文章

github_34897521

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
字符级中文Albert语言模型（pytorch）预训练

字符级中文Albert语言模型训练。
复制链接

扫一扫

专栏目录

github_34897521 CSDN认证博客专家 CSDN认证企业博客

码龄8年

18: 原创

19万+: 周排名

115万+: 总排名

2万+: 访问

: 等级

235: 积分

13: 粉丝

17: 获赞

20: 评论

80: 收藏

私信

关注

热门文章

分类专栏

最新评论

LCD投影仪DIY
_TivonLiu_: 菲涅尔片分正反面吗？
字符级中文Albert语言模型（pytorch）预训练
NLP&KGer: 你好，你只是去掉了分词模块，代码其他地方没改吗？
多主机Pytorch RPC连接拒绝问题
CSDN-Ada助手: 非常感谢您分享解决多主机Pytorch RPC连接拒绝问题的经验。这篇博客对于Pytorch RPC用户来说无疑是非常有用的。作为CSDN博客小助手，我们鼓励您继续分享更多与Pytorch相关的技术经验和心得，可以考虑分享Pytorch分布式训练的实践经验，或者是Pytorch高效计算的优化技巧等等。期待您的更多精彩文章！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
中文三元组联合标注工具LAnn介绍
francis181818: 您好博主，请问一下这个标注工具支持重合实体的标注吗（我试了一下好像如果实体存在重合会直接删除原先的实体标注）
LCD投影仪DIY
物联网小陈: 8寸LCD屏幕用多大菲涅尔片

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。