自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

转载 attention简单实现

keras还没有官方实现attention机制,有些attention的个人实现,在mnist数据集上做了下实验。模型是双向lstm+attention+dropout,话说双向lstm本身就很强大了。 参考链接:https://github.com/philipperemy/keras-attention-mechanism https://github.com/keras-team/kera

2018-04-11 10:30:03 10059 6

转载 交叉验证

交叉验证

2018-02-26 16:11:03 4568

转载 python----贝叶斯优化调参之Hyperopt

Hyperopt库为python中的模型选择和参数优化提供了算法和并行方案。机器学习常见的模型有KNN,SVM,PCA,决策树,GBDT等一系列的算法,但是在实际应用中,我们需要选取合适的模型,并对模型调参,得到一组合适的参数。尤其是在模型的调参阶段,需要花费大量的时间和精力,却又效率低下。但是我们可以换一个角度来看待这个问题,模型的选取,以及模型中需要调节的参数,可以看做是一组变量,模型的质量标准

2018-02-06 11:17:53 14453 3

转载 深度学习(DL)中调参若干技巧

深度学习网络调参技巧 在深度学习实验,相比普通机器学习任务,时间较长,因此调参技巧就显得尤为重要。同时个人实践中,又有一些新的调参心得,因此这里单独写一篇文章,谈一下自己对深度学习调参的理解,大家如果有其他技巧,也欢迎多多交流。好的实验环境是成功的一半

2018-02-05 14:03:40 2621

转载 Keras 使用一些技巧

我都一直在使用Keras框架,很多时候只是个‘搬砖’的,所以有必要学习一下keras使用技巧。

2018-01-31 10:33:17 7222 2

转载 分词原理

在做文本挖掘的时候,首先要做的预处理就是分词。英文单词天然有空格隔开容易按照空格分词,但是也有时候需要把多个单词做为一个分词,比如一些名词如“New York”,需要做为一个词看待。而中文由于没有空格,分词就是一个需要专门去解决的问题了。无论是英文还是中文,分词的原理都是类似的,本文就对文本挖掘时的分词原理做一个总结。

2018-01-29 16:43:47 1643

原创 keras 模型、结构、权重的保存

如何将训练好的网络进行保存,我们可以用pickle或cPickle来保存Keras模型,同时我们可以用下面的方法:一、保存整个模型model.save(filepath)将Keras模型和权重保存在一个HDF5文件中,该文件将包含:模型的结构模型的权重训练配置(损失函数,优化器,准确率等)优化器的状态,以便于从上次训练中断的地方       前提是已经安装python的h5py

2018-01-25 16:43:07 12432 2

原创 深度学习中的三个重要对象(2)-----初始化对象

**在神经网络层激活函数中,我们需要设置初始化,初始化对象用于随机设定网络层激活函数中权重值或偏置项的初始值,包括Kernel_initializer、bias_initializer。好的权重初始化值能帮助加快模型收敛速度。包括以下几种初始化对象:**Zeros,所有参数值都初始化为0。 Ones,所有参数值都初始化为1。 Constant(values=1),将所有参数都

2018-01-24 11:15:18 303

转载 gensim中word2vec

在word2vec原理篇中,我们对word2vec的两种模型CBOW和Skip-Gram,以及两种解法Hierarchical Softmax和Negative Sampling做了总结。这里我们就从实践的角度,使用gensim来学习word2vec。

2018-01-23 17:58:56 1199

转载 深度学习CNN的feature map

输入:N0*C0*H0*W0 输出:N1*C1*H1*W1 输出的feature map大小: H1=H0+2×pad−kernel_sizestride+1 W1=W0+2×pad−kernel_sizestride+1 注:当stride为1时,若pad=kernel_size−12,那么经过计算后的feature map大小不变

2018-01-22 14:24:58 2854

原创 深度学习中卷积神经网络(CNN)的参数,你真的都熟悉吗?

随着AI的越来越火热,深度学习中神经网络也受大家的热捧,特殊是运用在图片识别等的CNN,然而大多数人初学者会囫囵吞枣的运用CNN,对于里面的隐含层参数多少、神经元个数多少有这真的熟悉吗?    下面我们一起来了解其中的秘密吧!    首先,我们要熟悉滤波器、卷积层构造等基本知识,特别是滤波器:核的大小和种类。     比如ConV2D(filter,kernel_size,stride

2018-01-22 13:35:20 7067

原创 python read三种读法

在我们读取文件时经常会遇到read难题,所以我自己总结一下read三种读法:1.read 一次性读取所有文件,将所有文件放到一个字符串变量里2.readline 每次讲一行读入内存3.readlines一次读取文件,然后按行解析成列表

2018-01-22 11:24:25 10044

原创 深度学习中三个重要对象(1)------激活函数

1.激活对象     我们在定义网络层时,使用什么激活函数是很重要,通常有两种方法来使用激活函数:一是单独定义一个激活层               model.add(Dense(64,input_shape=(784,)))               model.add(Activation('tanh'))二是在前置层里面通过激活选项来定义所需的函数        

2018-01-19 17:18:52 1416

转载 python中gensim库详解

一、gensim介绍   gensim是一款强大的自然语言处理工具,里面包括N多常见模型: - 基本的语料处理工具 - LSI - LDA - HDP - DTM - DIM - TF-IDF - word2vec、paragraph2vec

2018-01-19 16:56:08 41691 3

转载 基于笔画中文分词算法---蚂蚁金服

原标题:AAAI 2018 | 蚂蚁金服公开最新基于笔画的中文词向量算法 转载自蚂蚁金服科技 作者:曹绍升 陆巍 周俊 李小龙 词向量算法是自然语言处理领域的基础算法,在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。

2018-01-19 15:13:06 1804

转载 基于深度学习的NER

命名实体识别(NER)是在自然语言处理中的一个经典问题,其应用也极为广泛。比如从一句话中识别出人名、地名,从电商的搜索中识别出产品的名字,识别药物名称等等。传统的公认比较好的处理算法是条件随机场(CRF),它是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。简单是说在NER中应用是,给定一系列的特征去预测每个词的标签。

2018-01-19 15:06:43 11310

转载 python中list具体操作你都熟悉吗?

> List列表

2018-01-19 11:44:37 223

转载 CRF条件随机场

简介条件随机场(CRF)是给定一组输入随机变量的条件下另一组输出随机变量的条件概率分布。

2018-01-19 10:13:41 326

转载 NLP中文分词工具比较

THULAC四款python中中文分词的尝试。尝试的有:jieba、SnowNLP(MIT)、pynlpir(大数据搜索挖掘实验室(北京市海量语言信息处理与云计算应用工程技术研究中心))、thulac(清华大学自然语言处理与社会人文计算实验室)

2018-01-19 09:09:18 35091 4

转载 深度学习DL中优化方法总结

前言(本文仅对一些常见的优化方法进行直观介绍和简单的比较,各种优化方法的详细内容及公式只好去认真啃论文了,在此我就不赘述了。

2018-01-19 09:00:05 1458

转载 深度学习DL中权重weight初始化方法

神经网络,或者深度学习算法的参数初始化是一个很重要的方面,传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接,但是往往效果一般。本篇文章的叙述来源于一个国外的讨论帖子[1],下面就自己的理解阐述一下。

2018-01-19 08:51:28 2415

转载 python 多线程

多进程实践——multiprocessing笔者最近在实践多进程发现multiprocessing,真心很好用,不仅加速了运算,同时可以GPU调用,而且互相之间无关联,这样可以很放心的进行计算。

2018-01-19 08:44:39 782

转载 基于深度学习分词

深度学习在NLP中的中文分词

2018-01-17 16:45:13 8507

转载 python if .for 等函数

python中if.for等函数

2018-01-17 13:44:11 7166

转载 sklearn 使用技巧

sklearn使用技巧

2018-01-17 12:05:34 2771

转载 doc2vec

在我们做文本处理的时候,经常需要对两篇文档是否相似做处理或者根据输入的文档,找出最相似的文档。幸好gensim提供了这样的工具,具体的处理思路如下,对于中文文本的比较,先需要做分词处理,根据分词的结果生成一个字典,然后再根据字典把原文档转化成向量。然后去训练相似度。把对应的文档构建一个索引

2018-01-17 11:34:55 2279 1

转载 keras 深度模型调参

超参数优化是深度学习中的重要组成部分。其原因在于,神经网络是公认的难以配置,而又有很多参数需要设置。最重要的是,个别模型的训练非常缓慢。在这篇文章中,你会了解到如何使用scikit-learn python机器学习库中的网格搜索功能调整Keras深度学习模型中的超参数。阅读本文后,你就会了解:如何包装Keras模型以便在scikit-learn中使用,以及如何使用网格搜索。 如何网格

2018-01-17 11:29:48 5964 3

转载 词嵌入、句向量等方法汇总

词嵌入、句向量、篇章向量

2018-01-17 11:03:39 12003 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除