自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爱吃鱼的猫

我会偷偷的把东西不声不响的偷回来,让这里的东西越来越多

转载 欧氏距离和余弦相似度的区别是什么?

原文:https://www.cnblogs.com/Jack-Lee/p/3654209.html 概述   两者都是评定个体间差异的大小的。欧几里得距离度量会受指标不同单位刻度的影响,所以一般需要先进行标准化,同时距离越大,个体间差异越大;   空间向量余弦夹角的相似度度量不会受指标...

2019-07-21 17:09:55 217 0

转载 为什么会出现Batch Normalization层

原文地址:https://blog.csdn.net/NNNNNNNNNNNNY/article/details/70331796 训练模型时的收敛速度问题 众所周知,模型训练需要使用高性能的GPU,还要花费大量的训练时间。除了数据量大及模型复杂等硬性因素外,数据分布的不断变化使得我们必须...

2019-07-12 15:31:24 79 0

转载 latex biography 中作者间间距过大,如何进行设置

转自:https://blog.csdn.net/u014077947/article/details/82216292 在用IEEE 的latex的模板进行排版的时候,经常发现作者之间的间距过大,这个时候应该如何进行调整呢?通过查阅资料发现有好几种方法。 1、重定义thebibliogr...

2019-04-23 21:34:38 729 0

转载 ubuntu16.04+anaconda+tensorflow-gpu1.8.0+keras+pytorch(caffe2)

原文:https://blog.csdn.net/zouxinyao/article/details/83026783 经过两天时间,终于在新安装的ubuntu16.04系统下配置好深度学习环境,今天和大家分享一下经验: 丑话说在前面: 安装tf之前我已经安装好cuda,但是用conda安...

2019-03-16 15:54:37 200 0

转载 使用sklearn进行增量学习

问题 实际处理和解决机器学习问题过程中,我们会遇到一些“大数据”问题,比如有上百万条数据,上千上万维特征,此时数据存储已经达到10G这种级别。这种情况下,如果还是直接使用传统的方式肯定行不通,比如当你想把数据load到内存中转成numpy数组,你会发现要么创建不了那么大的numpy矩阵,要么直接...

2019-03-02 13:41:14 667 0

原创 Sklearn.metrics 模型效果验证——accuracy, precision, recall, F1

accuracy, precision, recall, F1四个函数是分类问题中常见的四个模型评价函数。原来都是自己写代码来实现。现在没办法,懒了。所以打算直接调用 Sklearn.metrics 中的函数。第一次用,所有出现了几个问题,这里记录一下,省得自己以后又要再找。 accuracy_...

2019-03-01 19:28:14 2333 0

原创 sklearn.feature_extraction.text 中的 TfidfVectorizer 实现过程

对于NLP,已经学习一年了,可是一直有一个问题困扰着我,终于忍无可忍,决定将问题解决掉。 首先,介绍一下我的问题: 对于TFIDF算法,当利用训练集训练完成分类器,利用分类器进行训练时,如果测试集中只有一个文档,TFIDF数据是如何生成的? 这个问题可能对于很多人来说,很简单。但是对于我来说...

2019-02-24 21:07:57 1156 2

转载 VNC实现Windows远程访问Ubuntu 16.04(无需安装第三方桌面)

原文:https://www.cnblogs.com/xuliangxing/p/7642650.html 本文主要是讲解如果理由VNC实现Windows远程访问Ubuntu 16.04,其实网上有很多类似教程,但是很多需要安装第三方桌面(xfce桌面等等),而且很多人不太喜欢安装第三方桌面,很...

2018-11-06 17:05:00 747 0

转载 什么是Word2Vec?如何有效的表征文本的?

本文主要围绕两个问题进行介绍 “什么是Word2Vec?如何有效的表征文本的?”   2013年,Google开源了一个用于生成词向量的工具,因其简单实用高效而引起广泛关注。 若有兴趣的读者,可阅读作者的原论文[8]。   Word2Vector本质上有两个学习任务,还有两套模型分别是:...

2018-11-04 12:30:54 465 0

原创 Pycharm 中使用anaconda配置tensorflow 和 caffe

利用anaconda安装tensorflow和caffe, 在pycharm中进行使用时,需要先进行配置,否则会提示没有这一模块。 1、配置tensorflow   2、配置caffe  

2018-10-22 11:32:56 590 0

转载 深度学习中Attention Mechanism详细介绍:原理、分类及应用

Attention是一种用于提升基于RNN(LSTM或GRU)的Encoder + Decoder模型的效果的的机制(Mechanism),一般称为Attention Mechanism。Attention Mechanism目前非常流行,广泛应用于机器翻译、语音识别、图像标注(Image Cap...

2018-10-16 17:07:52 8483 0

转载 卷积神经网络中不同类型的卷积方式介绍

卷积基本概念     首先,我们首先回顾一下卷积相关的基本概念,定义一个卷积层需要的几个参数。                                                       2维卷积使用卷积核大小为3,步长为1和Padding     卷积核大小(Kerne...

2018-10-16 16:24:11 2870 0

转载 基于CNN的Seq2Seq模型-Convolutional Sequence to Sequence

 Seq2seq是现在使用广泛的一种序列到序列的深度学习算法,在图像、语音和NLP,比如:机器翻译、机器阅读、语音识别、智能对话和文档摘要生成等,都有广泛的应用。Seq2Seq模由encoder和decoder两个部分来构成,假设模型的训练样本为(X,Y),encoder负责把输入X映射到隐向量Z...

2018-10-16 16:03:55 2219 0

转载 深度学习中的表示学习_Representation Learning

一、深度学习网络的表达方式汇总及模型分类方法 人的大脑会对眼睛捕捉到的外界事物进行逐级抽象,逐渐提取出抽象的语义信息,以便为人脑所理解。深度学习从这一科学发现得到启发,通过网络的权值来捕捉外界输入模式的特征,并且通过网络连接方式来组合这些特征从而提取出更加高层特征,采用这种方法逐级从大量的输入数...

2018-10-16 15:56:43 11160 1

转载 多任务学习-Multitask Learning概述

1、单任务学习VS多任务学习     单任务学习:一次只学习一个任务(task),大部分的机器学习任务都属于单任务学习。     多任务学习:把多个相关(related)的任务放在一起学习,同时学习多个任务。     多任务学习(multitask learning)产生的原因?     ...

2018-10-15 22:04:03 6599 1

转载 使用caffe的convert_imageset生成lmdb文件

原文地址:https://blog.csdn.net/losteng/article/details/51170394     最近在看caffe的自带的例子时,才发现需要学习的真的很多 其中在将我们的数据转换成lmdb的文件的时候遇到很多问题,现在总结一下,只是个人问题 1.首先在一般...

2018-10-13 15:39:08 388 0

原创 Ubuntu 下 GitHub入门使用

一. 注册账号 首先进入GitHub的官网,注册GitHub账户。 GitHub官网网址:https://github.com/ 笔者已经注册了一个GitHub账号,且注册流程十分简单,所以不再赘述。笔者的GitHub主界面如下所示: 二. 本机操作 1.打开终端检查本地是否安装git...

2018-09-26 19:42:44 362 0

原创 Latex使用

(插播)数学字符加粗: http://blog.sina.com.cn/s/blog_a0e53bf70102vr42.html https://www.zhihu.com/question/25290041/answer/30422583 具体可看上面两篇介绍: 1、单个字符加粗,am...

2018-09-02 21:19:45 1140 0

原创 ubuntu下pip出现错误

电脑安装了tensorflow,可是这段时间却无故导入失败,出现各种问题,利用pip想要重装的时候,无论卸载还是安装总是提示如下错误: >Traceback (most recent call last): File "/home/myuser/.local/bin/p...

2018-07-18 17:36:19 1546 0

原创 Pycharm 首次导入 Tensorflow出现问题的解决方法

参考Pycharm中加入Tensorflow出现问题的解决方法   在看本文前需要先了解一下本文所解决的问题,表现为两个方面: 1、在终端中导入tensorflow导入时并不提示 tensorflow 模块不存在问题,而是提示cudnn找不到,问题如下所示: dell@dell-Powe...

2018-07-16 20:59:25 6582 2

转载 DeepNLP的表示学习·词嵌入来龙去脉·深度学习(Deep Learning)·自然语言处理(NLP)·表示(Representation)

原文:https://blog.csdn.net/scotfield_msn/article/details/69075227〇、序一、DeepNLP的核心关键:语言表示(Representation)二、NLP词的表示方法类型        1、词的独热表示one-hot representat...

2018-07-09 21:10:55 660 0

转载 用 Python 实现 LDA

原文地址:https://blog.csdn.net/github_36299736/article/details/54966460原文出处:Jordan BarberLDA 是什么LDA 演练需要用到的包导入文档清洗文档 分词移除停用词词干提取创建 document-term matrix应用...

2018-07-09 20:56:16 444 0

转载 基于gensim的doc2vec实践

原文:https://blog.csdn.net/John_xyz/article/details/794242841.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/1310....

2018-07-09 19:37:11 726 0

转载 词向量之WORD2VEC实践

原文地址:https://www.cnblogs.com/Climbing-Snail/p/7729795.html首先感谢无私分享的各位大神,文中很多内容多有借鉴之处。本次将自己的实验过程记录,希望能帮助有需要的同学。一、从下载数据开始    现在的中文语料库不是特别丰富,我在之前的文章中略有整...

2018-07-09 14:44:08 357 0

转载 用scikit-learn学习LDA主题模型

原文:http://www.cnblogs.com/pinard/p/6908150.html  在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn,  还有spark MLlib和gensim库...

2018-06-27 19:19:11 590 1

转载 英文文本挖掘预处理流程总结

原文:http://www.cnblogs.com/pinard/p/6756534.html 在中文文本挖掘预处理流程总结中,我们总结了中文文本挖掘的预处理流程,这里我们再对英文文本挖掘的预处理流程做一个总结。1.  英文文本挖掘预处理特点    英文文本的预处理方法和中文的有部分区别。首先,英...

2018-06-27 19:06:46 400 0

转载 中文文本挖掘预处理流程总结

原文:http://www.cnblogs.com/pinard/p/6744056.html在对文本做数据分析时,我们一大半的时间都会花在文本预处理上,而中文和英文的预处理流程稍有不同,本文就对中文文本挖掘的预处理流程做一个总结。1. 中文文本挖掘预处理特点    首先我们看看中文文本挖掘预处理...

2018-06-27 19:04:05 177 0

转载 文本挖掘预处理之TF-IDF

原文:http://www.cnblogs.com/pinard/p/6693230.html 在文本挖掘预处理之向量化与Hash Trick中我们讲到在文本挖掘的预处理中,向量化之后一般都伴随着TF-IDF的处理,那么什么是TF-IDF,为什么一般我们要加这一步预处理呢?这里就对TF-IDF的原...

2018-06-27 18:50:29 263 0

转载 文本主题模型之LDA

什么是话题模型(topic model)?话题模型就是用来发现大量文档集合的主题的算法。借助这些算法我们可以对文档集合进行归类。适用于大规模数据场景。目前甚至可以做到分析流数据。需要指出的是,话题模型不仅仅限于对文档的应用,可以应用在其他的应用场景中,例如基因数据、图像处理和社交网络。这是一种新的...

2018-06-27 18:37:16 9052 0

转载 doc2vec 句向量模型PV-DM与PV-DBOW原论文翻译

原文:https://blog.csdn.net/liaocyintl/article/details/50369158原文:LE, Quoc V.; MIKOLOV, Tomas. Distributed representations of sentences and documents. a...

2018-06-27 17:48:18 1584 0

转载 word2vec

近期一直在看关于文本处理的东西,怎奈一点基础都没有,看得着实费劲。特别是自己对于word2vec的理解一直不到位,因为总是介绍含糊不清,刚没说两句呢,就转到它的两个常用模型了。前段时间搜索的相关信息并不能减少word2vec给我的神秘感。不过一直好奇会催使你不断搜索新的信息,从而减少自己对其的持续...

2018-06-25 14:21:51 1092 0

转载 python︱六款中文分词模块尝试:jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP

原文:https://blog.csdn.net/sinat_26917383/article/details/77067515THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程...

2018-06-13 15:59:34 770 0

转载 doc2vec原理及实践

原文地址:https://blog.csdn.net/john_xyz/article/details/792085641.“句向量”简介word2vec提供了高质量的词向量,并在一些任务中表现良好。 关于word2vec的原理可以参考这几篇论文:https://arxiv.org/pdf/131...

2018-06-11 17:03:13 26074 3

转载 文本分类算法综述

原文:https://blog.csdn.net/John_xyz/article/details/79602506业务背景最近一段时间在今日头条国际化部门实习,做的文本质量工作。主要是文本分类,就是用一些机器学习或者深度学习的方法过滤掉低俗的新闻。因为做的是小语种,比如说法语,德语,意语,泰米尔...

2018-06-11 16:47:52 5685 0

转载 fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择

原文地址:https://www.cnblogs.com/DjangoBlog/p/7511979.html这个库的目的是探索用深度学习进行NLP文本分类的方法。 它具有文本分类的各种基准模型,还支持多标签分类,其中多标签与句子或文档相关联。 虽然这些模型很多都很简单,可能不会让你在这项文本分类任...

2018-06-11 16:39:07 3480 0

转载 文本处理(八)——深度学习在文本分类中的应用

原文地址:http://www.cnblogs.com/llhthinker/p/8127788.html1. 文本分类任务介绍文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛。如:垃圾邮件分类:二分类问题,判断邮件是否为垃圾邮件情...

2018-06-11 15:23:47 1486 0

转载 文本处理(七)——用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

原文地址:https://zhuanlan.zhihu.com/p/25928551近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。业务问题描述:淘宝商...

2018-06-11 14:59:55 6222 0

转载 文本处理(六)——Text-CNN、Word2Vec、RNN、NLP、Keras、fast.ai

原文:https://www.jianshu.com/p/7f35a4b33f45Text-CNNText-CNN 文本分类TextCNN 是利用卷积神经网络对文本进行分类的算法,由 Yoon Kim 在 “Convolutional Neural Networks for Sentence Cl...

2018-06-11 14:39:39 2916 0

转载 文本处理——基于 word2vec 和 CNN 的文本分类 :综述 & 实践(一)

原文地址:https://zhuanlan.zhihu.com/p/29076736导语传统的向量空间模型(VSM)假设特征项之间相互独立,这与实际情况是不相符的,为了解决这个问题,可以采用文本的分布式表示方式(例如 word embedding形式),通过文本的分布式表示,把文本表示成类似图像和...

2018-06-11 11:29:08 15157 2

转载 文本处理——fastText原理及实践(四)

博文地址:https://zhuanlan.zhihu.com/p/32965521fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在...

2018-06-11 11:06:58 4510 0

提示
确定要删除当前文章?
取消 删除