自然语言处理
文章平均质量分 95
yip522364642
这个作者很懒,什么都没留下…
展开
-
BERT
立个FLAG等我忙完中期就写一篇关于BERT的自己的原理和实践原创 2020-05-12 13:57:17 · 245 阅读 · 2 评论 -
word2vec的原理及实现(附github代码)
目录一、word2vec原理二、word2vec代码实现(1)获取文本语料(2)载入数据,训练并保存模型① # 输出日志信息② # 将语料保存在sentence中③ # 生成词向量空间模型④ # 保存模型(3)加载模型,实现功能(4)增量训练最近要用到文本词向量,借此机会重温一下word2vec。本文会讲解word2vec的原理和代码实现。本...原创 2019-11-13 16:57:06 · 20120 阅读 · 4 评论 -
基于gensim模块的中文句子相似度计算
"""基于gensim模块的中文句子相似度计算思路如下:1.文本预处理:中文分词,去除停用词2.计算词频3.创建字典(单词与编号之间的映射)4.将待比较的文档转换为向量(词袋表示方法)5.建立语料库6.初始化模型7.创建索引8.相似度计算并返回相似度最大的文本"""代码下载地址:https://github.com/yip522364642/ChineseSimil...原创 2018-08-21 17:07:29 · 9515 阅读 · 0 评论 -
搜索引擎的性能评估(以Baidu, Google and Bing为例,附github代码)
Performance evaluation of Baidu, Google and Bing(搜索引擎的性能评估)Link toGithub:https://github.com/yip522364642/Evaluation-of-search-engines1 Data preparationCompose these 3 queries:query1='网络信息检索的性能...原创 2018-12-14 17:19:39 · 971 阅读 · 0 评论