CNN 吴恩达讲解

https://blog.csdn.net/ice_actor/article/details/78648780

2018-09-30 15:05:38

阅读数 203

评论数 0

LSTM原理及实现

https://blog.csdn.net/gzj_1101/article/details/79376798

2018-09-27 15:17:02

阅读数 101

评论数 0

RNN循环神经网络

全连接神经网络和卷积神经网络他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列;当我们处理...

2018-09-26 11:16:47

阅读数 120

评论数 0

LSTM做文本生成(基于word2vec)

数据:使用丘吉尔的人物传记作为我的学习语料 框架:Keras import os import numpy as np import nltk from keras.models import Sequential from keras.layers import Dense from ke...

2018-09-26 01:15:12

阅读数 1984

评论数 0

LSTM做文本生成(基于bag_of_word)

数据:使用丘吉尔的人物传记作为我的学习语料。 框架:keras import numpy from keras.models import Sequential from keras.layers import Dense from keras.layers import Droupout ...

2018-09-25 23:56:31

阅读数 601

评论数 0

根据姓名预测性别

算法:朴素贝叶斯 import pandas as pd from collections import defaultdict import math train=pd.read_csv("train.txt") test=pd.read_csv(&am...

2018-09-25 15:05:06

阅读数 615

评论数 0

朴素贝叶斯,拉普拉斯平滑

条件概率与贝叶斯定理 朴素贝叶斯 拉普拉斯平滑 目的: 在训练集有限的情况下,给定类别,某一特征值出现的条件概率可能为0,这样在贝叶斯公式中分子和分母都为0,为了避免这种情况,就要用到拉普拉斯平滑。 即:在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用练...

2018-09-25 11:02:12

阅读数 735

评论数 0

中文文本情感分析(word2vec)

gensim做word2vec文本处理,sklearn.svm做建模 from sklearn.cross_validation import train_test_split from gensim.models.word2vec import Word2Vec import numpy a...

2018-09-19 16:28:40

阅读数 1817

评论数 6

word2vec 对影评情感进行预测

上篇用了countvectorize进行文本embling,忽视了文本词中上下文的语义。因此这里用到了word2vec。 word2vec训练词向量。 import os import re import numpy as np import pandas as pd from bs4 im...

2018-09-19 00:18:21

阅读数 722

评论数 0

对影评进行情感预测(countvectorizer,randomforeast)

参加了kaggle的竞赛,主题为对影评进行情感预测。以下为我的baseline思路. 所用到的包:countvectorize,randomforestclassifier. import #import所需要的库 import os import re import numpy as n...

2018-09-18 23:05:02

阅读数 243

评论数 0

word2vec的延伸:DOC2VEC

虽然WORD2VEC表示的词向量不仅考虑了词之间的语义信息,还压缩了维度。但是,有时候当我们需要得到sentence/Document的向量时,虽然可以直接将sentence/Document中所有词的向量取均值作为sentence/Document的向量表示,但是这样会忽略了单词之间的排列顺序对...

2018-09-18 17:20:14

阅读数 72

评论数 0

python 读取Hive数据,和上传数据到hive

使用第三方包pyhive。 from pyhive import hive import pandas as pd import sys reloar(sys) sys.setdefaultencoding('utf8') def LinkHive(sql_select): ...

2018-09-18 09:33:37

阅读数 2967

评论数 0

word2vec 的CBOW,多层softmax,负采样。

NNLM的原理基于N-1个词来预测第N个词,而CBOW是希望用前后N个词来预测中间词,这是CBOW与NNLM的本质区别。 NNLM中存在投影层,将ONE-HOT编码与词库矩阵C进行运算投射,从词库矩阵取出一列。同时对每个词取出的每个列,进行一个concat拼接。 而由于当词库非常巨大时,这个计...

2018-09-16 22:24:06

阅读数 1546

评论数 0

Neural Network Language Model(NNLM)

Neural Network Language Model(NNLM)神经网络语言模型 原理图: 运用场景: 知道句子的前N-1个词,来预测第N个词。 网络的流程: 1.词语one-hot编码—————2.projection_layer层————3.hidden_layer层———...

2018-09-13 17:22:32

阅读数 320

评论数 1

N-gram

N-gram语言模型 该模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。 目的1: 用来明确语义 比如当“M...

2018-09-12 14:53:35

阅读数 84

评论数 0

np.random.uniform

numpy.random.uniform介绍: 函数原型:  numpy.random.uniform(low,high,size) 功能:从一个均匀分布[low,high)中随机采样,注意定义域是左闭右开,即包含low,不包含high. 参数介绍:           low: 采样下界,...

2018-09-11 15:30:30

阅读数 1012

评论数 0

NLP 做词频矩阵时,遇到特大矩阵触发memoryerror的处理方式

昨天做NLP词频矩阵处理时候,遇到内存不足的问题,遇到memoryerror的情况。查了不少资料,都让我在大的机器上跑,但是有时候资源有限。 由于我的句子中的每个词语都是重要的,所以不设置停用词,也就是countvectoirze才符合我的需求,而并非TFIDFVECTORIZE,TFIDF是为...

2018-09-06 10:19:11

阅读数 2260

评论数 0

python中merge,concat

经常混淆,MARK一下: pd.concat([up,down],axis=0,ignore_index=True) 表示按axis来连接,比如为0时,上下连接,以up的数据columns为主,若down数据不存在相应的columns,则此columns下的down数据为null,ignore...

2018-09-04 23:25:34

阅读数 460

评论数 0

Dictvectorizer,countvectorizer和tfidfvectorizer文本特征提取区别

Dicvectorizer对使用字典储存的数据进行特征提取与向量化 # 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。 measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London',...

2018-09-03 14:34:28

阅读数 480

评论数 0

PYTHON TENSORFLOW手记

个人记性不好,经常性工作中忘记知识点,现在打算在做项目时候,哪些知识点淡忘了,就在CSDN上MARK一下。 mark 一下tensorflow 的流程: tensorflow的基础运算 tensorflow口诀:1.变量(variable)  2.tensor  3.会话  4 图  ...

2018-08-29 10:32:31

阅读数 60

评论数 0

提示
确定要删除当前文章?
取消 删除