自然语言处理
刚搬完砖
公众号: 刚搬完砖
搬砖之后,关于自然语言处理技术/推荐技术的一些总结与思考
展开
-
神经网络检索方法与一种结合local和distributed文本相似度算法
神经网络检索方法与一种结合local和distributed文本相似度算法 by joeyqzhou 基于频次的信息检索方法 信息检索(IR), 简单说,就是给一个query, 返回与其最相关的doc. 传统的IR方法有tfidf, BM25, 它们主要考虑的是query中词语的确定性匹配(不能匹配到类似词)。即词在某篇候选doc中出现的次数(term frequency)和在所有doc中出现...原创 2020-03-27 17:58:21 · 873 阅读 · 0 评论 -
Spark中分布式使用HanLP(1.7.0)分词d
Spark中分布式使用HanLP(1.7.0)分词 HanLP分词(https://github.com/hankcs/HanLP),如README中所说,如果没有特殊需求,可以通过maven配置,如果要添加自定义词典,需要下载“依赖jar包和用户字典". 本人一些经验: 是直接"java xf hanlp-1.6.8-sources.jar" 解压源码,把源码加入工程(依赖本地jar包,有些麻...原创 2018-12-01 17:27:27 · 2078 阅读 · 4 评论