深度学习
AI算法工程师YC
Work together and make progress together
展开
-
文章摘要生成(Summarizing Text with Amazon Reviews)
文章摘要生成数据集:Amazon 500000评论本节内容:•数据预处理•构建Seq2Seq模型•训练网络•测试效果seq2seq教程: https://github.com/j-min/tf_tutorial_plus/tree/master/RNN_seq2seq/contrib_seq2seqimport pandas as pdimport numpy as npimp...原创 2019-12-16 16:27:28 · 877 阅读 · 0 评论 -
Seq2Seq对输入单词字母排序
Seq2SeqRNN 网络结构LSTM网络结构机器翻译的历史Seq2Seq的应用Seq2Seq存在的问题Attention机制“高分辨率”聚焦在图片的某个特定区域并以“低分辨率”感知图像的周边区域的模式,通过大量实验证明,将attention机制应用在机器翻译,摘要生成,阅读理解等问题上,取得的成效显著关注输入序列中某些状态下的内容Bucket机制正常情况要对所有句子进...原创 2019-12-16 15:49:31 · 634 阅读 · 0 评论 -
基于Tensorflow里CNN文本分类
使用CNN进行文本分类卷积神经网络英文邮件分类语料simplistic , silly and tedious . it's so laddish and juvenile , only teenage boys could possibly find it funny . exploitative and largely devoid of the depth or sophis...原创 2019-12-16 11:46:50 · 962 阅读 · 1 评论 -
Tensorflow和Gensim里word2vec训练
Tensorflow里word2vec训练# -*- coding:utf-8 -*-import tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprint#from pymongo import MongoClienti...原创 2019-12-16 11:17:38 · 509 阅读 · 0 评论 -
生成对抗网络GAN
一、判别模型和生成模型有监督的机器学习中,我们可以概述为通过很多有标记的数据,训练出一个模型,然后利用这个,对输入的X进行预测输出的Y。这个模型一般有两种:决策函数:Y=f(X)条件概率分布:P(Y|X)根据通过学习数据来获取这两种模型的方法,我们可以分为判别方法和生成方法 :判别方法由数据 直接学习决策函数Y=f(X)或条件概率分布P(Y|X)作为预测模型,即为判别模型。判别方...原创 2019-12-16 10:25:52 · 855 阅读 · 0 评论 -
LSTM_文本生成(text_generation)
1.文本生成(char)用LSTM做文本生成举个小小的例子,来看看LSTM是怎么玩的我们这里用温斯顿丘吉尔的人物传记作为我们的学习语料。# -*- coding: utf-8 -*-'''用RNN做文本生成,用温斯顿丘吉尔的人物传记作为我们的学习语料我们这里简单的文本预测是,给了前置的字母以后,下一个字母是谁?比如,importan,给出t,Winsto,给出n,Britai, 给...原创 2019-12-10 22:31:09 · 1966 阅读 · 2 评论 -
自然语言处理库—Gensim之Word2vec
1. gensim概述Gensim(http://pypi.python.org/pypi/gensim)是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 主要用于主题建模和文档相似性处理,它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法。Gensim在诸如获取单词的词向量等任务中非常有用。使用Gensi...原创 2019-12-10 22:05:24 · 489 阅读 · 0 评论 -
Keras中Sequential模型及方法详细总结
Sequential 序贯模型序贯模型是函数式模型的简略版,为最简单的线性、从头到尾的结构顺序,不分叉,是多个网络层的线性堆叠。Keras实现了很多层,包括core核心层,Convolution卷积层、Pooling池化层等非常丰富有趣的网络结构。我们可以通过将层的列表传递给Sequential的构造函数,来创建一个Sequential模型。from keras.models import...原创 2019-12-10 21:11:17 · 9380 阅读 · 0 评论 -
NLTK包的常用总结
NLTKNLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。NLTK的安装nltk的安装十分便捷,只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包...原创 2019-12-09 21:32:59 · 1646 阅读 · 0 评论 -
sklearn中使用CountVectorizer和TfidfTransformer计算TF-IDF
CountVectorizeCountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transform函数计算各个词语出现的次数。CountVectorizer(input='content', encoding='utf-8',...原创 2019-11-13 21:51:21 · 3736 阅读 · 0 评论 -
TF-IDF算法实现
Python实现TF-IDF算法# -*- coding: utf-8 -*-from collections import defaultdictimport mathimport operator """函数说明:创建数据样本Returns: dataset - 实验样本切分的词条 classVec - 类别标签向量"""def loadDataSet():...原创 2019-11-13 21:25:58 · 580 阅读 · 0 评论 -
TF-IDF原理介绍
TF-IDF定义TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被...原创 2019-11-13 16:31:23 · 236 阅读 · 0 评论 -
中文分词包jieba的使用总结
安装 jieba 包pip install jiebahttps://github.com/fxsjy/jieba特点:支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典M...原创 2019-11-13 16:04:35 · 881 阅读 · 0 评论