LLM资料：中文embedding库

Hugo Lei

已于 2024-03-29 19:51:10 修改

阅读量1.6k

点赞数 13

分类专栏： LLM工程文章标签： embedding LLM 词向量 Transformer

于 2024-03-28 20:00:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hugo_lei/article/details/137121879

版权

LLM工程专栏收录该内容

26 篇文章

订阅专栏

Highlight（重点提示）

理解LLM，就要理解Transformer，但其实最基础的还是要从词的embedding讲起。

毕竟计算机能处理的只有数字，所以万事开头的第一步就是将要处理的任务转换为数字。

面向中文的开源embedding库在自然语言处理领域中扮演着重要的角色，它们能够将文本数据转换为数值向量，进而用于各种机器学习任务。以下是一些常见的面向中文的开源embedding库：

1. Tencent AI Lab Embedding Dataset

简介：由腾讯AI实验室提供的中文和英文词嵌入数据集，包含超过1200万中文词汇和650万英文词汇的预训练词向量。
特点：该数据集提供了100维和200维的词向量表示，能够广泛应用于命名实体识别、文本分类等下游任务。
优势：覆盖面广、新颖性强、准确度高，包含了大量领域特定词汇和新兴词汇。
资源：可通过Tencent AI Lab Embedding Dataset页面下载。

2. M3E

简介：Moka（北京希瑞亚斯科技）开源的中文文本嵌入模型，特别针对中文处理进行了优化。
特点：使用大规模中文句对数据集进行训练，支持同质文本相似度计算和异质文本检索。
优势：在文本分类和文本检索任务上表现优异，超越了openai-ada-002模型（ChatGPT官方模型）。
资源：模型地址在M3E GitHub页面。

3. Chinese-Word-Vectors

简介：一个收集了多种预训练中文词向量的资源库。
特点：包含了多种不同来源和训练方法的中文词向量，如使用Word2Vec、GloVe等技术训练的词向量。
优势：提供了丰富的中文词向量资源，方便研究者和开发者根据需求选择合适的词向量模型。
资源：可通过Chinese-Word-Vectors GitHub页面获取。

4. FastNLP

简介：一款轻量级的NLP处理套件，支持中文文本处理。
特点：提供了文本分类、命名实体识别等多种NLP任务的处理流程和模型。
优势：易于使用，快速上手，支持自定义流程和模型训练。
资源：可通过FastNLP页面下载。

5. HanLP

简介：一款高性能、高可用的中文语言处理包。
特点：提供了分词、词性标注、命名实体识别、情感分析等多种中文处理功能。
优势：性能优异，支持多种中文处理任务，社区活跃，持续更新。
资源：可通过HanLP GitHub页面获取。

6. SnowNLP

简介：一个用于处理中文文本的Python库。
特点：提供了分词、词性标注、情感分析等中文文本处理功能。
优势：简单易用，适合初学者快速实现中文文本处理。
资源：可通过SnowNLP GitHub页面下载。

这些库和资源为中文自然语言处理提供了强大的支持，无论是学术研究还是商业应用，都可以根据具体需求选择合适的embedding库进行开发和研究。随着AI技术的发展，未来还会有更多高效、实用的embedding库出现，为中文NLP领域带来新的突破。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Hugo Lei 赏你了，我的一点心意

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。