NLP
link-ai
奋斗目标:财务自由
展开
-
NLP-*-NER实体识别模型
说明模型:BiLSTM+CRF框架:tensorflow 1.14.0硬件:RTX 2080Ti (11G)其他:采用BIO 标注的方式本人在NER方面没有实际经验,代码有不当之处 请各位看官指正代码目录如下:NERdatasetlabels.txttrain_datamodelsdatautil.pyner.pytrain.pyner.py# -*- coding:utf-8 -*-import osfrom tqdm import tqdmimpo原创 2020-11-11 19:08:30 · 312 阅读 · 0 评论 -
NLP-*-Glove词向量原理
Glove词向量引入学习词向量有两种方法:局部和全局全局的代表有 LSA PLSA等局部的代表有 Word2Vec他们都有各自的缺陷,全局的没有利用好词之间的类比信息,局部的方法没有利用词全局的统计信息Glove词向量即利用了局部信息也利用了全局的统计信息,全名为:Global Vectors for Word Representation Jeffrey原理首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij表示词汇jjj出现在词汇iii的上下文的次数总和,令Xi=ΣkX原创 2020-06-16 15:23:25 · 656 阅读 · 0 评论 -
NLP-*-jieba工具的使用
一 分词支持三种分词模式:1.精确模式,试图将句子最精确地切开,适合文本分析;2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...原创 2018-10-25 15:58:38 · 488 阅读 · 0 评论 -
关于word2vec及文本相似性计算
关于word2vec及文本相似性计算最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。 也看到很多人说word2vec在相关语义计算方面有优势,不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点word2vec训练用...原创 2018-08-28 17:56:03 · 12017 阅读 · 9 评论