NLP
Leo蓝色
奋斗目标:财务自由
展开
-
NLP-*-NER实体识别模型
说明 模型:BiLSTM+CRF 框架:tensorflow 1.14.0 硬件:RTX 2080Ti (11G) 其他:采用BIO 标注的方式 本人在NER方面没有实际经验,代码有不当之处 请各位看官指正 代码 目录如下: NER dataset labels.txt train_data models datautil.py ner.py train.py ner.py # -*- coding:utf-8 -*- import os from tqdm import tqdm impo原创 2020-11-11 19:08:30 · 295 阅读 · 0 评论 -
NLP-*-Glove词向量原理
Glove词向量 引入 学习词向量有两种方法:局部和全局 全局的代表有 LSA PLSA等 局部的代表有 Word2Vec 他们都有各自的缺陷,全局的没有利用好词之间的类比信息,局部的方法没有利用词全局的统计信息 Glove词向量即利用了局部信息也利用了全局的统计信息,全名为:Global Vectors for Word Representation Jeffrey 原理 首先引入词汇的共现矩阵XXX,其中每一个元素XijX_{ij}Xij表示词汇jjj出现在词汇iii的上下文的次数总和,令Xi=ΣkX原创 2020-06-16 15:23:25 · 648 阅读 · 0 评论 -
NLP-*-jieba工具的使用
一 分词 支持三种分词模式: 1.精确模式,试图将句子最精确地切开,适合文本分析; 2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 def test_cut(sentence): """ 测试分词三种模式 :param sentence: :...原创 2018-10-25 15:58:38 · 482 阅读 · 0 评论 -
关于word2vec及文本相似性计算
关于word2vec及文本相似性计算 最近2个月主要涉及到对文本相似度计算方法的实验,用了 词频词袋模型、tfidf词袋表示、word2vec表示,利用一些标注好的数据对结果进行了检验,最终还是发现 tfidf相似度计算效果较好,但计算效率慢一些。 也看到很多人说word2vec在相关语义计算方面有优势,不知道是不是我训练的模型有问题。。。有了解的大牛麻烦指点 word2vec训练 用...原创 2018-08-28 17:56:03 · 12000 阅读 · 9 评论