2018年05月_qq_30868235

转载文本分类

From My Github - 文本分类文本分类：预处理特征选择 DF (Document Frequency)信息增益 (Information Gain, IG)熵 (Entropy)相对熵 (Relative Entropy)χ² 统计量 (Chi-Square)互信息 (Mutual Information)Robertson & Sparck Jones公式发生比 (Odds)...

2018-05-31 11:27:33 545

用 Doc2Vec 得到文档／段落／句子的向量本文结构：Doc2Vec 有什么用两种实现方法用 Gensim 训练 Doc2VecDoc2Vec 或者叫做 paragraph2vec, sentence embeddings，是一种非监督式算法，可以获得 sentences/paragraphs/documents 的向量表达，是 word2vec 的拓展。学出来的向量可以通过计算距离来找 sen...

2018-05-31 10:59:19 998

转载 :CBOW和skip-gram模型

系列所有帖子自己动手写word2vec (一):主要概念和流程自己动手写word2vec (二):统计词频自己动手写word2vec (三):构建Huffman树自己动手写word2vec (四):CBOW和skip-gram模型CBOW和skip-gram应该可以说算是word2vec的核心概念之一了。这一节我们就来仔细的阐述这两个模型。其实这两个模型有很多的相通之处，所以这里就以阐述C...

2018-05-31 10:05:11 1135

转载 Huffman码的生成

这一部分将解释Huffman树的构造方法，并说明了如何根据Huffman树来产生对应的二进制编码。这部分的代码放在HuffmanTree.py中Huffman树的构造Huffman树的构造方法与Huffman编码密切相关。具体的做法可以用下列伪码来描述while (单词列表长度>1) { 从单词列表中挑选出出现频率最小的两个单词 ; 创建一个新的中间节点，其左右节点分别是之...

2018-05-31 09:55:26 253

转载自己动手写word2vec (一):主要概念和流程

word2vec 是 Google 于 2013 年开源推出的一个用于获取词向量（word vector）的工具包，它简单、高效，因此引起了很多人的关注。我在看了@peghoty所写的《word2vec中的数学以后》（个人觉得这是很好的资料，各方面知识很全面，不像网上大部分有残缺），为了加深理解，自己用Python实现了一遍。贴在我的github上系列所有帖子自己动手写word2vec (一):...

2018-05-31 09:48:30 407

转载 Python3：collections.deque的用法简介

from collections import dequequeue = deque(["Eric", "John", "Michael"])queue.append("Terry") # Terry 入队queue.append("Graham") # Graham 入队queue.popleft() # 队首元素出队...

2018-05-31 08:39:48 2269

转载 Python urllib模块urlretrieve()详解

Python urllib模块urlretrieve()详解urlretrieve方法直接将远程数据下载到本地。urllib.urlretrieve(url, filename, reporthook=None,data=None)参数说明：url：外部或者本地urlfilename：指定了保存到本地的路径（如果未指定该参数，urllib会生成一个临时文件来保存数据）；reporthook：是一个...

2018-05-30 14:46:31 5001

转载 from six.moves import urllib

实验环境：windows 7，anaconda 3(python 3.5)，tensorflow（gpu/cpu）函数介绍：所用函数为six.moves下的urllib中的函数，调用如下urllib.request.urlretrieve(url,[filepath,[recall_func,[data]]])。简单介绍一下，url是必填的指的是下载地址，filepath指的是保存的本地地址，r...

2018-05-30 14:35:42 5337

转载 from future import division

from __future__ import division导入python未来支持的语言特征division(精确除法)，当我们没有在程序中导入该特征时，"/"操作符执行的是截断除法(Truncating Division),当我们导入精确除法之后，"/"执行的是精确除法，如下所示：--------------------------------------------------------...

2018-05-30 14:31:49 200

转载 TensorFlow二进制模型加载方法

TensorFlow二进制模型加载方法这种加载方法一般是对应网上各大公司已经训练好的网络模型进行修改的工作1234567891011121314151617# 新建空白图self.graph = tf.Graph()# 空白图列为默认图with self.graph.as_default(): # 二进制读取模型文件 with tf.gfile.FastGFile(os.path.jo...

2018-05-29 21:12:57 894

转载【Tensorflow】tf.Graph()函数

TensorFlow是谷歌基于DistBelief进行研发的第二代人工智能学习系统，其命名来源于本身的运行原理。Tensor(张量)意味着N维数组，Flow(流)意味着基于数据流图的计算，TensorFlow为张量从流图的一端流动到另一端计算过程。TensorFlow是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。TensorFlow可被用于语音识别或图像识别等多项机器深度学习领...

2018-05-29 21:01:51 2710

转载 tf.gfile.FastGFile

tf.gfile.FastGFile(path,decodestyle) 函数功能：实现对图片的读取。函数参数：(1)path：图片所在路径 (2)decodestyle:图片的解码方式。(‘r’:UTF-8编码; ‘rb’:非UTF-8编码)import matplotlib.pyplot as plt import tensorflow as tf #tf.gfileGFile()函数...

2018-05-29 13:17:46 713

转载从AlexNet理解卷积神经网络的一般结构

2012年AlexNet在ImageNet大赛上一举夺魁，开启了深度学习的时代，虽然后来大量比AlexNet更快速更准确的卷积神经网络结构相继出现，但是AlexNet作为开创者依旧有着很多值得学习参考的地方，它为后续的CNN甚至是R-CNN等其他网络都定下了基调，所以下面我们将从AlexNet入手，理解卷积神经网络的一般结构。先给出AlexNet的一些参数和结构图：卷积层：5层全连接层：3层 ...

2018-05-26 22:32:03 534

转载卷积核

今天一个同学问卷积过程好像是对一个通道的图像进行卷积，比如10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的，输出的个数依然是卷积核的个数。可以查看常用模型，比如lenet 手写体，Alex imagenet 模型，每一层输出feature map 个数就是该层卷积核的个数。1、一通道单个...

2018-05-26 22:14:54 10525

转载 tf.argmax()函数 tf.equal()函数 tf.cast()函数 tf.truncated_normal()

1. tf.argmax()函数tf.argmax可以认为就是np.argmax。tensorflow使用numpy实现的这个API。　简单的说，tf.argmax就是返回最大的那个数值所在的下标。tf.argmax(array,axis) 当axis=1时返回每列最大值的下标，当axis=0时返回每行最大值的下班。2. tf.equal()函数tf.equal(A,B)是对比这两个矩...

2018-05-25 13:49:02 596

转载 tf.nn.softmax_cross_entropy_with_logits的用法

【TensorFlow】【TensorFlow】tf.nn.softmax_cross_entropy_with_logits的用法from：https://blog.csdn.net/mao_xiao_feng/article/details/53382790 在计算loss的时候，最常见的一句话就是tf.nn.softmax_cross_entropy_with_logits，那么它到底是怎么...

2018-05-24 22:24:39 101

转载训练神经网络中最基本的三个概念：Epoch, Batch, Iteration

训练神经网络中最基本的三个概念：Epoch, Batch, Iteration转载地址：https://zhuanlan.zhihu.com/p/29409502原作者：Michael Yuan作者主页：https://www.zhihu.com/people/mikeyuan今天让我们来总结下训练神经网络中最最基础的三个概念：Epoch, Batch, Iteration。1. 名词解释2. 换...

2018-05-22 23:21:14 677

转载神经网络训练中，Epoch、Batch Size和迭代傻傻分不清?

你肯定经历过这样的时刻，看着电脑屏幕抓着头，困惑着：「为什么我会在代码中使用这三个术语，它们有什么区别吗？」因为它们看起来实在太相似了。为了理解这些术语有什么不同，你需要了解一些关于机器学习的术语，比如梯度下降，以帮助你理解。这里简单总结梯度下降的含义...梯度下降这是一个在机器学习中用于寻找较佳结果（曲线的最小值）的迭代优化算法。梯度的含义是斜率或者斜坡的倾斜度。下降的含义是代价函数的下降。算法...

2018-05-22 23:19:28 252

转载神经网络2. epoch， iteration， batchsize相关理解和说明

本文为原创文章转载请注明出处：http://blog.csdn.NET/qq_20259459 和作者信息。原文超链接（点击阅读原文）batchsize：中文翻译为批大小（批尺寸）。简单点说，批量大小将决定我们一次训练的样本数目。batch_size将影响到模型的优化程度和速度。为什么需要有 Batch_Size :batchsize 的正确选择是为了在内存效率和内存容量之间寻找最佳平衡。 Ba...

2018-05-22 23:16:34 140

转载 RandomState.choice

RandomState.choice(a, size=None, replace=True, p=None)–通过给定的一维数组数据产生随机采样参数:a：一维数组或者int型变量，如果是数组，就按照里面的范围来进行采样，如果是单个变量，则采用np.arange(a)的形式size : int 或者 tuple of ints, 可选参数决定了输出的shape. 如果给定的是, (m, n, k)...

2018-05-22 17:46:41 982

转载 CountVectorizer文本特征提取

om sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer, TfidfTransformercorpus = [ 'This is the first document.', 'This is the second second document.', 'And the third...

2018-05-21 10:44:45 3978

转载机器学习之路：python 文本特征提取 CountVectorizer, TfidfVectorizer

本特征提取：将文本数据转化成特征向量的过程比较常用的文本特征表示法为词袋法词袋法：不考虑词语出现的顺序，每个出现过的词汇单独作为一列特征这些不重复的特征词汇集合为词表每一个文本都可以在很长的词表上统计出一个很多列的特征向量如果每个文本都出现的词汇，一般被标记为停用词不计入特征向量主要有两个api来实现 CountVectorizer 和 Tfi...

2018-05-21 10:26:19 797

转载 sklearn.feature_extraction 特征提取与预处理

#Extracting features from categorical variables 独热编码from sklearn.feature_extraction import DictVectorizeronehot_encoder=DictVectorizer()instance=[{'city':'New York'},{'city':'San Francisco'}, ...

2018-05-21 09:04:21 967

转载 sklearn中的交叉验证（Cross-Validation）

sklearn是利用python进行机器学习中一个非常全面和好用的第三方库，用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法，主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解，英文水平好的建议读官方文档，里面的知识点很详细。先导入需要的库及数据集In [1]: import numpy ...

2018-05-20 20:59:06 1123

转载【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子

内容概要¶训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证1. 模型验证回顾¶进行模型验证的一个重要目的是要选出一个最合适的模型，对于监督学习而言，我们希望模型对于未知数据的泛化能力强，所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度（用全部数据进行训练和测试）来衡量模型的表现，这...

2018-05-20 20:23:48 521

转载 Pandas简易入门（一）

目录：读取数据索引选择数据简单运算声明，本文引用于：https://www.dataquest.io/mission/8/introduction-to-pandas （建议阅读原文）Pandas使用一个二维的数据结构DataFrame来表示表格式的数据，相比较于Numpy，Pandas可以存储混合的数据结构，同时使用NaN来表示缺失的数据，而不用像Numpy一...

2018-05-20 10:53:17 188

转载 value_counts计算DataFrame,Series的数据频率

在pandas里面常用用value_counts确认数据出现的频率。Series 情况下[python] view plain copyimport numpy as np import pandas as pd from pandas import DataFrame from pandas import Series ss = Series(['Tokyo', 'Nagoya', 'N...

2018-05-20 10:30:55 1564

转载 Python rstrip()方法

Python 字符串描述Python rstrip() 删除 string 字符串末尾的指定字符（默认为空格）.语法rstrip()方法语法：str.rstrip([chars])参数chars -- 指定删除的字符（默认为空格）返回值返回删除 string 字符串末尾的指定字符后生成的新字符串。实例以下实例展示了rstrip()函数的使用方法：#!/usr/bin/pythonstr = ...

2018-05-20 10:30:45 1560 1

原创 pandas.get_dummy

独热向量编码/One-Hot-Encoding (Dummy variables) 颜色：红、黄、紫[1,0,0] [0,1,0] [0,0,1] LR = theta*X 红色蓝色黄色紫色咖啡色白色… => 红色蓝色黄色 rare sklearn OneHotEncoder；pandas get_dummies# create a dataframe with an inte...

2018-05-20 10:30:33 822

转载 Pandas-数据整理

Pandas包对数据的常用整理功能，相当于数据预处理（不包括特征工程）目录丢弃值drop()缺失值处理isnull() & notnull()dropna()fillna()　　值替换replace()get_dummies()　重复值处理duplicated()is_unique()unique()drop_duplicated()排序&排名sort_index()rank()　...

2018-05-19 21:15:54 275

转载 Dropna滤除缺失数据

import pandas as pdimport numpy as npfrom numpy import nan as NaN123滤除缺失数据pandas的设计目标之一就是使得处理缺失数据的任务更加轻松些。pandas使用NaN作为缺失数据的标记。使用dropna使得滤除缺失数据更加得心应手。一、处理Series对象通过dropna()滤除缺失数据：se1=pd.Series([4,Na...

2018-05-19 20:56:59 1193 1

转载 pandas.read_csv参数

CSV通常来说，数据是CSV格式，就算不是，至少也可以转换成CSV格式。读取csv文件 read_csvlines = pd.read_csv(checkin_filename, sep='\t', header=None,names=col_names, parse_dates=[1], skip_blank_lines=True, index_col=0).reset_index()date...

2018-05-19 20:51:21 1174

转载 Python最牛逼内建函数之 max/min（

Python最牛逼内建函数之 max/min（）max/min主要介绍了max的运行机制，以及如何传入和比较，min函数的运行机制和max一样，只是min取的是最小值max/min 后直接跟序列会返回此序列的最大/最小值max(iterable, key, default) 求迭代器的最大值，其中iterable 为迭代器，max会for i in … 遍历一遍这个迭代器，然后将迭代器的每一个返回...

2018-05-19 20:29:02 176

转载 Python 集合set

可变集合set集合set是Python中一种基本数据类型，它分为可变集合（set）和不可变集合（frozenset）两种。类似于其他语言，集合是一个无序不重复元素集，包括创建集合set、向集合中添加元素、删除集合中的元素、求集合的交集、并集、差集等操作。下面就让我们一一来学习集合的这些知识吧。1、set创建集合set集合类需要的参数必须是迭代器类型的，如：序列、字典等，然后转换成无序不重复的元素集...

2018-05-19 16:15:01 91

转载 Python range() 函数用法

Python 内置函数python range() 函数可创建一个整数列表，一般用在 for 循环中。函数语法range(start, stop[, step])参数说明：start: 计数从 start 开始。默认是从 0 开始。例如range（5）等价于range（0， 5）;stop: 计数到 stop 结束，但不包括 stop。例如：range（0， 5）是[0, 1, 2, 3, 4...

2018-05-19 16:07:21 188

转载 python read( )函数

在博客（Python 本地数据获取网址：http://blog.csdn.net/sxingming/article/details/51333663）中，我们详细介绍了python中文件读写的各种方法。本文通过例子具体示例一下read( )函数的使用，所用的例子均是从文件"C:\Users\Administrator\Desktop\test.txt"中读取数据，文件内容如下：1》>...

2018-05-19 15:55:34 19342

转载 python中defaultdict方法的使用

默认值可以很方便众所周知，在Python中如果访问字典中不存在的键，会引发KeyError异常（JavaScript中如果对象中不存在某个属性，则返回undefined）。但是有时候，字典中的每个键都存在默认值是非常方便的。例如下面的例子：strings = ('puppy', 'kitten', 'puppy', 'puppy', 'weasel', 'puppy', 'k...

2018-05-19 15:28:57 1163

原创贝叶斯推断及其互联网应用（三）：拼写检查

贝叶斯推断及其互联网应用（三）：拼写检查作者：阮一峰日期： 2012年10月16日（这个系列的第一部分介绍了贝叶斯定理，第二部分介绍了如何过滤垃圾邮件，今天是第三部分。）使用谷歌的时候，如果你拼错一个单词，它会提醒你正确的拼法。比如，你不小心输入了 seperate。谷歌告诉你，这个词是不存在的，正确的拼法是 separate。这就叫做"拼写检查"（spelling corrector）。有好几...

2018-05-19 10:04:06 332

转载 GridSearchCV 简介：

GridSearchCV，它存在的意义就是自动调参，只要把参数输进去，就能给出最优化的结果和参数。但是这个方法适合于小数据集，一旦数据的量级上去了，很难得出结果。这个时候就是需要动脑筋了。数据量比较大的时候可以使用一个快速调优的方法——坐标下降。它其实是一种贪心算法：拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会...

2018-05-18 22:34:31 2216

转载 sklearn.model_selection.KFold

K折交叉验证：sklearn.model_selection.KFold(n_splits=3, shuffle=False, random_state=None)思路：将训练/测试数据集划分n_splits个互斥子集，每次用其中一个子集当作验证集，剩下的n_splits-1个作为训练集，进行n_splits次训练和测试，得到n_splits个结果注意点：对于不能均等份的数据集，其前n_sampl...

2018-05-18 22:21:34 383

空空如也

空空如也