机器学习
文章平均质量分 89
乐七_
这个作者很懒,什么都没留下…
展开
-
维基百科中文语料库训练word2vec模型和使用总结
首先列明参考博文地址:使用中文维基百科语料库训练一个word2vec模型并使用说明windows使用opencc中文简体和繁体互转使用中文维基百科训练word2vec模型一、下载维基百科中文语料库下载地址:https://dumps.wikimedia.org/zhwiki/这里我选择的是20200801,下载第一个即可二、语料库处理1、使用WikiExtractor提取语料库文章WikiExtractor项目git地址直接根据说明安装,这里我直接pipWikiExtractor是原创 2020-08-07 11:35:35 · 5303 阅读 · 1 评论 -
训练集,测试集,验证集、一些对机器学习术语的掌握
训练集用于训练模型,然后经过几次迭代后使用测试集测试模型,要保证训练集和测试集是分开的,不能在训练集中混入测试数据。但是尽管这样,但是模型还是会在测试集中学习到东西导致过拟合的发生,也就是测试结果效果特别好。所以选择将数据集划分成三个:训练集、测试集、验证集样本:有标签样本:特征+标签无标签样本模型:训练时给出特征和标签,让模型学习特征并逐渐与标签建立联系。测试时不给出标签,...原创 2020-04-21 18:41:37 · 1302 阅读 · 0 评论