NLP实战
NLP实战
NLP_victor
这个作者很懒,什么都没留下…
展开
-
Python的datasketch库中的MinHashLSH
1、简介在工作中需要对海量数据进行相似性查找,即对微博全量用户进行关注相似度计算,计算得到每个用户关注相似度最高的TOP-N个用户,首先想到的是利用简单的协同过滤,先定义相似性度量(cos,Pearson,Jaccard),然后利用通过两两计算相似度,计算top-n进行筛选,这种方法的时间复杂度为O(n^2)(对于每个用户,都和其他任意一个用户进行了比较)。但是在实际应用中,对于亿级的用户...原创 2020-01-19 20:02:24 · 6318 阅读 · 0 评论 -
AI Studio 免费GPU 入门智能问答:2019知识驱动对话竞赛
一、百度AI Studio 平台推荐一波免费GPU资源:AI Studio是百度提供的一个针对AI学习者的在线一体化开发实训平台,平台采用的是Tesla V100的GPU。传送门:AI Studio二、知识驱动对话竞赛2019人机对话是人工智能的一项基本挑战,涉及语言理解、逻辑控制和语言生成等关键技术,受到了学术界和工业界的广泛关注。目前的人机对话技术还处于初级阶段,机器...原创 2019-08-07 21:47:50 · 1415 阅读 · 1 评论 -
自然语言处理理论干货汇总
自然语言处理优质GitHub、推文资料合集,本文持续更新当下最新的NLP资料,方便各位学习和查阅。1、入门指南和路线【1】刘知远老师Github:NLP研究入门之道(2019.4)https://github.com/zibuyu/research_tao【2】李理的博客(2019.3)http://fancyerii.github.io/2019/03/05/bert-pre...原创 2019-06-20 21:50:42 · 352 阅读 · 0 评论 -
NLP基础实验⑨:Transformer
一、Attention机制的本质思想①第一个过程根据Query和Key计算权重系数根据Query和Key计算两者的相似性或者相关性(阶段1)对第一阶段的原始分值进行归一化处理(阶段2)②第二个过程根据权重系数对Value进行加权求和(阶段3)上图清晰地展示了三阶段计算Attention的过程理论:《深度学习中的注意力模型》张俊林老师:https://z...原创 2019-05-28 16:59:24 · 1292 阅读 · 0 评论 -
NLP基础实验⑦:FastText
一、介绍Word2Vec作者Mikolov在预印本(Bag of Tricks for Efficient Text Classification:https://arxiv.org/pdf/1607.01759v2.pdf)中提出了fastText文本分类方法,可以在普通CPU上快速训练,结果与深度学习训练出来的模型类似。论文翻译:https://mp.weixin.qq.com/s?_...原创 2019-05-22 21:06:42 · 397 阅读 · 0 评论 -
NLP基础实验⑧:TextRNN、HAN
TextRNN尽管TextCNN能够在很多任务里面能有不错的表现,但CNN有个最大问题是固定 filter_size 的视野,一方面无法建模更长的序列信息,另一方面 filter_size 的超参调节也很繁琐。CNN本质是做文本的特征表达工作,而自然语言处理中更常用的是递归神经网络(RNN, Recurrent Neural Network),能够更好的表达上下文信息。具体在文本分类任务...原创 2019-05-26 20:59:29 · 548 阅读 · 0 评论 -
NLP基础实验②:TextCNN实现THUCNews新闻文本分类
一、TextCNN下图是14年这篇文章提出的TextCNN的结构。fastText 中的网络结果是完全没有考虑词序信息的,而它用的 n-gram 特征 trick 恰恰说明了局部序列信息的重要意义。卷积神经网络(CNN Convolutional Neural Network)最初在图像领域取得了巨大成功,CNN原理就不讲了,核心点在于可以捕捉局部相关性,具体到文本分类任务中可以利用CNN来提...原创 2019-05-12 21:26:22 · 4509 阅读 · 0 评论 -
NLP基础实验④:特征选择之TF-IDF和互信息
一、TF-IDF原理以及利用其进行特征筛选关于TF-IDF原理,之前写的一篇博客:特征工程之TF-IDF1.1 简单使用这里简单总结一下使用sklearn提取文本tfidf特征,官方教程:http://sklearn.lzjqsdd.com/modules/feature_extraction.html#tfidfhttp://sklearn.apachecn.org/#...原创 2019-05-16 17:02:43 · 891 阅读 · 0 评论 -
NLP基础实验①:IMDB电影评论情感分析
1、数据集导入与探索import tensorflow as tffrom tensorflow import kerasimdb = keras.datasets.imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)参数 num_words=10000...原创 2019-05-11 20:57:39 · 2743 阅读 · 1 评论 -
NLP基础实验⑥:LDA
Linear Discriminant Analysis (LDA)from sklearn.feature_extraction.text import TfidfVectorizerimport numpy as npfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysisdef TFIDF...原创 2019-05-20 21:12:59 · 269 阅读 · 0 评论 -
NLP基础实验⑤:朴素贝叶斯和SVM
一、朴素贝叶斯from sklearn.naive_bayes import MultinomialNBfrom sklearn.pipeline import Pipelinefrom sklearn import metricsfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.featu...原创 2019-05-20 21:09:33 · 554 阅读 · 0 评论 -
NLP基础实验③:中文分词-jieba
中文分词有很多种,常见的比如有中科院计算所 NLPIR、哈工大 LTP、清华大学 THULAC 、斯坦福分词器、Hanlp 分词器、jieba 分词、IKAnalyzer 等。jiaba官方:https://github.com/fxsjy/jieba1、分词三种分词算法基于统计词典,构造前缀词典,基于前缀词典对句子进行切分,得到所有切分可能,根据切分位置,构造一个有向无环图...原创 2019-05-14 21:00:44 · 934 阅读 · 0 评论