![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
jinjiajia95
这个作者很懒,什么都没留下…
展开
-
TripletLoss、HardTripletLoss笔记
一、triplet loss原创 2020-03-30 16:52:47 · 1936 阅读 · 0 评论 -
聚类总结一(K-Means)
一、常见的聚类分析算法K-Means: K-均值聚类也称为快速聚类法,在最小化误差函数的基础上将数据划分为预定的类数K。该算法原理简单并便于处理大量数据。K-中心点:K-均值算法对孤立点的敏感性,K-中心点算法不采用簇中对象的平均值作为簇中心,而选用簇中离平均值最近的对象作为簇中心。系统聚类:也称为层次聚类,分类的单位由高到低呈树形结构,且所处的位置越低,其所包含的对象就越少,但这些对象...原创 2019-11-01 19:10:21 · 1716 阅读 · 0 评论 -
Word2vec训练保存及应用
一、分词# -*- coding: utf-8 -*-import jiebaimport io# 加载自己的自己的词库jieba.load_userdict("Words.txt")def main(): with io.open('news201708.txt','r',encoding='utf-8') as content: for line in c...原创 2019-11-01 17:11:57 · 1233 阅读 · 0 评论 -
仅用四行代码实现RNN文本生成模型
摘要: 想要在没有任何问题的情况下生成文本,而无需自己构建和调整神经网络吗?赶紧来看看textgenrnn项目吧,它只需几行代码就能轻松地在任何文本数据集上训练任意大小和复杂度文本生成神经网络。正文:textgenrnn就是采用RNN的方式来实现文本生成的一个简洁高效的库,代码量非常少,又非常易于理解。其架构是采用了LSTM+Attention的方式来实现。如下图所示:源码提供的功能:一、...原创 2019-06-11 08:47:29 · 1194 阅读 · 0 评论 -
对推荐系统排序(Rank)评价指标的理解?
1、1.Mean Average Precision (MAP)可能大家接触比较多的是MAP,MAP考虑的是0和1的排序。AP=∑j=1niP(j).yi,j∑j=1niyi,jAP=\frac{\sum_{j=1}^{n_{i}}P(j).y_{i,j}}{\sum_{j=1}^{n_{i}}y_{i,j}}AP=∑j=1niyi,j∑j=1niP(j).yi,j其中yi,j...原创 2019-06-05 11:58:49 · 2900 阅读 · 0 评论 -
jieba分词创造多个实例
想根据不同的环境用不同的分词器https://github.com/fxsjy/jieba/issues/290发现github这边也有这个问题,解答如下:那么 t = jieba.Tokenizer([dictionary]) 生成的实例,如何使用 jieba.analyse 相关功能呢?比如 jieba.analyse.set_stop_words(file_name)jieba.an...原创 2019-05-10 15:15:16 · 1093 阅读 · 0 评论 -
两行代码玩转Google BERT句向量词向量
关于作者:肖涵博士,bert-as-service 作者。现为腾讯 AI Lab 高级科学家、德中人工智能协会主席。肖涵的 Fashion-MNIST 数据集已成为机器学习基准集,在 Github 上超过 4.4K 星,一年来其学术引用数超过 300 篇。肖涵在德国慕尼黑工业大学计算机系取得了计算机博士(2014)和硕士学位(2011),在北邮取得了信息通信学士学位(2009)。他曾于 2014...原创 2019-05-07 08:52:02 · 677 阅读 · 0 评论 -
textrank提取关键词与关键句
最近在调研怎么提取关键句,目前的思想是用全文提取关键词和关键句提取关键词进行比较,以评估关键句的提取。(提取关键词的方法现在用的是自己构建的领域词表(带权重)与文本tfidf分析出的词分数相结合,效果还可以,还没有想出更好的提关键词的方法)关键句提取:测试了一下textrank,以下记录了textrank的原理:一:PageRank简介TextRank算法是由网页重要性排序算法PageRa...原创 2019-05-09 11:36:50 · 6678 阅读 · 3 评论 -
图解BERT
原文链接:The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning)作者:Jay AlammarBERT论文地址:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding大家可以关注作者(包括之前的self...原创 2019-05-08 14:39:00 · 2516 阅读 · 0 评论 -
基于skip_thoughts vectors 的sentence2vec神经网络实现
1、论文摘要我们描述了一种通用、分布式句子编码器的无监督学习方法。使用从书籍中提取的连续文本,我们训练了一个编码器-解码器模型,试图重建编码段落周围的句子。语义和语法属性一致的句子因此被映射到相似的向量表示。我们接着引入一个简单的词汇扩展方法来编码不再训练预料内的单词,令词汇量扩展到一百万词。在训练模型后,我们用线性模型在8个任务上提取和评估我们的向量,包括:语义相关性,释义检测,图像句子排序,...原创 2019-05-29 10:08:00 · 479 阅读 · 0 评论 -
深度残差网络和Highway网络
1、深度残差网络下面是深度残差网络的架构图(来自论文《Deep Residual Learning for Image Recognition》)之所以说起名“残差”网络,是因为假设网络要学习的是H(x),那么由于图中identity x之间跨过了2层,那么其实相当于拟合的是F(x)=H(x)-x,这就是残差概念的来源,这是论文里的说法。其实我感觉作者在提出这个结构的时候,打破了传统的神经...原创 2019-04-24 11:36:32 · 840 阅读 · 1 评论 -
卷积神经网络CNN(一个有趣的想法)
1、卷积神经网络CNN字符级与词级的卷积神经网络想必大家都已经非常熟悉了,这里我有一个有趣的想法,能同时学习到词级与字符级。1.1 中文文本输入 sentences='我上午上班的途中,在过红绿灯时,有一辆车闯红灯,撞到了我的车上,发生了交通事故,有交警办理,交通事故责任认定种类有哪几种?我要负责么?'1.2 构建字符表##构建字符级词汇表##def build_vocab(dat...原创 2019-03-25 14:46:50 · 648 阅读 · 0 评论 -
基于Quick_Thought Vectors的Sentence2Vec神经网络实现
一、前言1、Skip-Thought-Vector论文 代码复现 https://github.com/ryankiros/skip-thoughts2、本文假设读者已了解Skip-Gram-Vector和RNN相关基础3、quick_thought 论文:Lajanugen Logeswaran, Honglak Lee, An efficient framework for learni...原创 2019-03-02 11:28:41 · 1073 阅读 · 0 评论 -
self-attention原理详解
该博客讲解的极其清晰,强烈推荐 https://jalammar.github.io/illustrated-transformer/以下内容源于此博客(转载翻译分享)1、让我们首先将模型看作一个黑盒子。在机器翻译应用程序中,它将使用一种语言的句子,并将其翻译输出到另一种语言中。2、打开黑盒子,我们看到了编码组件,解码组件以及它们之间的连接。编码组件是一堆编码器(图中由6个编码器组成,数...翻译 2019-03-05 08:51:17 · 7885 阅读 · 6 评论