github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量

(给机器学习算法与Python学习加星标,提升AI技能)  该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量。开发者可以轻松获得具有不同属性的预先训练的向量,并将它们用于下游任务。 此外,该库还提供了一个中文类比推理数据集CA8和评估工具包,供用户评估他们的单词向量的质量。

  格式

预先训练好的向量文件是 text 格式,每行包含一个单词和它的向量,每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个表示维度。 除了密集的单词矢量(用 SGNS 训练)之外,我们还提供稀疏矢量(用 PPMI 训练)。它们与 liblinear 的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。 Github: https://github.com/Embedding/Chinese-Word-Vectors

  预训练中文词向量

基础设置 7045c97e9b69077af3657c86a9eec4a5.png 不同的领域 用不同的表示法,上下文特征和语料库训练的中文单词向量。 a7f1f48c683fa9fad7f22df2d86f6d56.png d1d0168f69a17b15b78ac447bd7a4461.png *本库提供了字符嵌入,因为大部分古汉字都是独立的字符。

  各种共现信息

本库根据不同的共现信息发布单词向量,目标向量和上下文向量在相关论文中被称为输入和输出向量。 这一部分,可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。所有向量都在百度百科上使用 SGNS 训练。 c9c1b84f43f27324214fa21b831ec4ea.png
推荐阅读手绘日漫版的新垣结衣见过没?这个开源动漫生成器让你的照片秒变教程资源 | 5天玩转PyTorch深度学习,从GAN到词嵌入都有实例技巧 | 30招教你顺滑切换Python3PDF+视频 | 欲学机器学习必先掌握Shell,自制教程

喜欢就点「在看」吧 !

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值