NLP
NLP领域的一些算法
iwtbs_kevin
曾在快手/阿里实习,现在字节跳动data担任推荐算法工程师
展开
-
自然语言处理知识梳理
文章目录word2vecgensim实现textcnnBi-LSTMBi-LSTM + Attentionseq2seqattention+Seq2seqTransformerword2vecgensim实现from gensim.models import Word2Vecsentences = [["cat", "say", "meow"], ["dog", "say", "woof"...原创 2020-03-11 01:18:49 · 572 阅读 · 0 评论 -
敏感词匹配——python使用esmre实现ac自动机[多模匹配]
介绍与安装希望可以做敏感词的匹配,比如包含‘詹姆斯’的句子认为是体育相关,由于数量巨大, 不可能用正则一个个的匹配,因此采用ac自动机,具体原理不介绍了,直接使用esmre库即可。pip install esmre简单例子import esmindex = esm.Index()index.enter("宝马")index.enter("马")index.enter("奔驰")...原创 2020-01-15 18:47:09 · 2778 阅读 · 2 评论 -
微博feed流nlp
难点与问题博文较短且容易图文无关——主题模型不适用语言随意化——不能从语法结构入手用户搜索行为序列不好获取文本简短,页面中能看到全文,没必要点击。从停留行为来看,由于一页展示多条博文,也不能准确定位用户感兴趣的是哪条微博。用户 feed 行为序列不能准确获取用户停留在 feed 流的页面中,不能准确区分哪条微博为用户感兴趣的。部分高点击的博文是由于用户想查看图片的内容才点击进入微博的...原创 2020-01-08 18:26:10 · 539 阅读 · 0 评论 -
利用Gensim 训练 Word2Vec
文章目录模型训练模型参数外部语料模型保存与读取模型预测模型训练# 引入 word2vecfrom gensim.models import word2vec # 引入日志配置import logging logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO...原创 2019-12-26 21:20:59 · 193 阅读 · 0 评论