自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(268)
  • 资源 (6)
  • 收藏
  • 关注

原创 tensorflow中的tf.app.run()

1、tensorflow的程序中,在main函数下,都是使用tf.app.run()来启动if __name__ == "__main__": tf.app.run()2、查看源码可知,该函数是用来处理flag解析,然后执行main函数,那么flag解析是什么意思呢?诸如这样的:"""Generic entry point script."""from __future__ i

2016-11-21 19:13:45 17936 1

原创 语言模型的评估-困惑度

语言模型评价语言模型构造完成后,如何确定好坏呢? 目前主要有两种评价方法:实用方法:通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、不够客观;理论方法:迷惑度/困惑度/混乱度(preplexity),其基本思想是给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的

2016-11-21 15:25:57 26344 1

原创 tensorflow中使用LSTM去预测sinx函数

import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltBATCH_START = 0TIME_STEPS = 20BATCH_SIZE = 50INPUT_SIZE = 1OUTPUT_SIZE = 1CELL_SIZE = 10LR = 0.006def get_batch():

2016-11-20 22:01:20 4509 1

原创 tesnsorflow 使用LSTM进行分类的例程

import tensorflow as tfimport sysfrom tensorflow.examples.tutorials.mnist import input_data# this is datamnist = input_data.read_data_sets('MNIST_data', one_hot=True)# hyperparameterslr = 0.00

2016-11-20 14:58:52 10237 5

原创 tensorflow中dropout的用法,防止overfitting

1、不使用dropout的方案:from __future__ import print_functionimport tensorflow as tffrom sklearn.datasets import load_digitsfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessin

2016-11-18 21:34:39 45799 2

原创 tensorflow中可视化loss,weight,bias,提供算法调试的信息

from __future__ import print_functionimport tensorflow as tfimport numpy as npdef add_layer(inputs, in_size, out_size, n_layer, activation_function=None): # add one more layer and return the

2016-11-18 20:20:31 8391

原创 tensorflow中可视化工具tensorboard的使用

from __future__ import print_functionimport tensorflow as tfdef add_layer(inputs, in_size, out_size, activation_function=None): # add one more layer and return the output of this layer wit

2016-11-18 19:41:48 1058

原创 tensorflow for 分类问题

from __future__ import print_functionimport tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# number 1 to 10 datamnist = input_data.read_data_sets('MNIST_data', one_hot=T

2016-11-18 19:06:11 764

原创 tensorflow构建网络模型

from __future__ import print_functionimport tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltdef add_layer(inputs, in_size, out_size, activation_function=None): Weights = tf.V

2016-11-18 15:34:30 940

原创 tensorflow8 placeholder

import tensorflow as tfinput1 = tf.placeholder(tf.float32) #typeinput2 = tf.placeholder(tf.float32) #typeoutput = tf.mul(input1,input2)with tf.Session() as sess: print (sess.run(output,

2016-11-18 09:45:55 845

原创 tensorflow7 Variable变量

import tensorflow as tfstate = tf.Variable(0,name='counter')#print (state.name)one = tf.constant(1)new_value = tf.add(state,one)update = tf.assign(state,new_value)#very importantinit = tf.

2016-11-18 09:35:57 655

原创 tensorflow6 会话控制 session

import tensorflow as tfimport numpy as npmatrix1 = tf.constant([[3,3]])matrix2 = tf.constant([[2], [2]])product = tf.matmul(matrix1,matrix2) # matrix multiply#method1#s

2016-11-18 09:26:06 4255

原创 tensorflow5 简单神经网络的构建

import tensorflow as tfimport numpy as np#create datax_data = np.random.rand(100).astype(np.float32)y_data = x_data*0.1 + 0.3###create tensorflow struture start###Weight = tf.Variable(tf.rando

2016-11-17 22:47:51 1553 1

原创 LSTM的完整推导过程,附上推导的手写稿

1、LSTM结构分析:说明:LSTM只是RNN的一种,只是将sigmoid神经元替换成LSTM单元。整体上的结构和前向全连接神经网络类似,也会有输入层结点,输出层结点。上图的结构就是有4个输入层结点,2个single-cell LSTM memory blocks,5个输出层结点。2、符号说明:3、前向过程:说明:前向传播过程,可以看出,对于

2016-11-16 16:47:04 4091

原创 XGBoost cross_validation脚本学习

https://www.kaggle.com/mmueller/bosch-production-line-performance/road-2-0-4/code说明:XGBoost提供了很方便的脚本,可以进行cross_validation# -*- coding: utf-8 -*-"""@author: Faron"""import pandas as pdimport n

2016-11-13 11:34:07 1900

原创 XGBoost 脚本学习

https://www.kaggle.com/happycube/bosch-production-line-performance/scirpus-extreme-bayes-faron-36312/code说明:这个脚本是训练XGBoost的脚本,值得去学习,特别是XGBoost的一些参数设置 import gcimport numpy as npimport pandas as

2016-11-13 11:29:58 1040

原创 数据分析脚本学习-从数据中,分析出哪些特征的组合能更好的预测label

https://www.kaggle.com/gaborfodor/bosch-production-line-performance/69-failure-rate说明:这个数据分析的过程值得去学习,从数据中去学习,特征取哪些值时能得到label=1的结论。或者哪些特征取哪些组合时,能得到response=1的结论。值得学习。说明:作者最后得到的结果如下:

2016-11-13 11:14:42 1709

原创 数据分析脚本&分析特征跟label的关系&缺失特征&缺失交叉特征&相关性热图

https://www.kaggle.com/dollardollar/bosch-production-line-performance/eda-of-important-features/comments说明:这个链接里,进行数据分析的脚本可以借鉴。有如下几个功能:1、分析特征跟label的关系2、分析,不同label的样本,其缺失的比例3、绘制相关性热图

2016-11-13 09:49:01 1826

原创 随机森林的几个重要参数

翻译自:https://www.analyticsvidhya.com/blog/2015/06/tuning-random-forest-model/There are primarily 3 features which can be tuned to improve the predictive power of the model :说明:随机森林有3个比较重要的参数,对结

2016-11-05 11:17:36 20913 3

原创 机器学习常见的六大错误

机器学习很大程度上就像软件工程一样,比如我现在要实现一个key-value的数据库,那么有很多种模式都可以实现,但是他们最终所达到的效果却是千差万别的。同样,在机器学习领域,如果我想实现一个分类器,也有很多种算法,但是每种算法都对数据做了不同的前提假设,比如说k-means,对数据的假设,就是样本在欧式空间中,可以用欧式距离来度量。因为k-means算法的核心就是根据欧式距离来进行聚类。曾

2016-11-02 21:44:07 1219

原创 执行sudo命令时command not found的解决办法

问题的原因: 在编译sudo包的时候默认开启了- -with-secure-path选项。 方法1: sudo vim /etc/sudoers,并在文件内增加这么一行:Defaults secure_path=”/bin:/usr/bin:/usr/local/bin:…”, 把要用的命令path包括进去。在非root下,可以执行很多命令。在root命令下,却提示 com

2016-11-01 16:01:01 23013

原创 python 编码问题总结

1、简而言之,Python 2.x里字符串有两种:str和Unicode前者到后者要decode,后者到前者要encode,'utf-8'为例:str.decode('utf-8') -> Unicodestr 总结:Unicode就像是中间桥梁,utf-8编码,GBK编码都可以decode成unicode编码,而unicode编码可以encode成utf-8。编码其实就分

2016-10-28 23:04:05 448

原创 pandas contact 之后,一定要记得用reset_index去处理index,不然容易出现莫名的逻辑错误

# -*- coding: utf-8 -*-import pandas as pdimport sysdf1 = pd.DataFrame({ 'A': ['A0', 'A1', 'A2', 'A3'], 'B': ['B0', 'B1', 'B2', 'B3'], 'C': ['C0', 'C1', '

2016-10-25 23:51:00 73993 2

原创 安装jpype出现_jpype错误的解决方案

说明:主要是执行该python文件调用了anaconda的python解释器。所以报错:后来使用/user/bin python 调用该py文件就可以执行成功。说明:#!/usr/bin/python 也是默认调用/usr/bin/python,这样通过./a.py

2016-10-18 12:56:56 6804 1

原创 pandas使用get_dummies进行one-hot编码

离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码import pandas as pddf = pd.DataFra

2016-10-17 09:30:41 80708 5

原创 xgboost cross_validation&自定义目标函数和评价函数&base_score参数

1、Xgboost参数的选择:base_score:对于所有样本预测为正样本的全局偏置(the initial prediction score of all instances, global bia)。如果迭代次数够多,改变这个参数对结果不会有影响。经验值:将base_score设定为#(正样本)/#(所有样本),对结果没有多少影响,但是可以减少迭代的次数。2、Xgboos

2016-10-11 19:58:36 18784 5

原创 XGBoost Stopping to Avoid Overfitting(early_stopping_rounds )

XGBoost模型和其他模型一样,如果迭代次数过多,也会进入过拟合。表现就是随着迭代次数的增加,测试集上的测试误差开始下降。当开始过拟合或者过训练时,测试集上的测试误差开始上升,或者说波动。下面通过实验来说明这种情况:下面实验数据的来源:https://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes# monitor traini

2016-10-10 14:33:22 12993 2

原创 feature_names mismatch XGBoost错误解析

feature_names mismatch 的错误就是训练集和测试集的特征个数不一致导致的。一、a.csv:最大小标是5。所以,训练集的特征维数就是6b.csv:最大小标是4。所以,训练集的特征维数就是5所以,就是训练集和测试集的训练特征的维数不一致,就会报错。二、a.csv:最大小标是4。所以,训练集的特征维数就是5b.csv:最

2016-10-06 13:44:36 14414 2

原创 神经网络学习率下降&平方误差和交叉熵的差异

1、从BP算法来分析神经网络学习率下降的问题:并且:           说明:对于神经网络的中间层,除了输出层以外,在某些情况下,梯度会下降到接近于0,是无法避免的。但是,对于输出层而言,通过学习合适的误差函数,我们能避免,输出层的梯度为0.其实,我们理想的情况下是,当神经网络的输出与标准值误差比较大时,希望梯度会比较大,这样的话,参数更新的步伐比较大

2016-10-01 16:21:21 3634

转载 反向传播:整体描述 反向传播算法的起源

2016-10-01 10:08:13 1064

转载 为什么说反向传播算法很高效?

2016-10-01 10:03:51 2879

转载 反向传播算法

2016-10-01 10:02:04 461

转载 四个基本方程的证明

2016-10-01 10:00:48 556

转载 反向传播背后的四个基本等式

2016-10-01 09:57:29 1023

转载 关于损失函数的两个假设

说明:

2016-10-01 09:47:04 794

转载 热身:一个基于矩阵的快速计算神经网络输出的方法

转载自 哈工大SCIR热身:一个基于矩阵的快速计算神经网络输出的方法

2016-10-01 09:41:14 605

转载 什么导致了消失的梯度问题?深度神经网络中的梯度不稳定性

转载自哈工大SCIR(公众号) 为了弄清楚为何会出现消失的梯度,来看看一个极简单的深度神经网络:每一层都只有一个单一的神经元。下图就是有三层隐藏层的神经网络:

2016-09-30 15:20:23 4487 1

原创 RNN,LSTM 反向传播算法的思考 & RNN,LSTM可以模块化的分析

RNN的前向传播过程:RNN的BPTT公式:       说明:第t时刻,本层结点的残差有两个来源:一是上一层结点t时刻的残差进行加权(这个跟前馈网络是一样的,最后的误差要分派到每一个神经元上面,通过加权的方式,其实就是前面的神经元的误差累积形成最后的残差),二是后一个时刻(t+1)隐层结点的残差进行加权。所以,层与层之间的交互也只是将上一层的t时刻残差传给下一

2016-09-27 14:33:04 2145

原创 Lua实现LSTM 前向传播

LSTM本身不是一个完整的模型,LSTM是对RNN隐藏层的改进。一般所称的LSTM网络应该称为使用了LSTM单元的RNN网络。本博文翻译自https://apaszke.github.io/lstm-explained.html。1、RNN其实和前馈网络没很大差异,RNN也可以层级堆叠。只是说前一时刻的隐藏层的输入要继续作为当前时刻的输入。

2016-09-26 16:17:08 1367

原创 如何解决机器学习中数据不平衡问题

这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不

2016-09-25 10:45:05 26577 2

推荐系统经典文章

推荐系统,协同滤波,矩阵分解,经典论文及其对应的PPT

2015-10-27

machine learning week9 作业答案

异常检测(Anomaly Detection),推荐系统(Recommender Systems)

2015-04-27

machine learining Dimensionality Reduction (Week 8) exercise

machine learining Dimensionality Reduction (Week 8) exercise K-Means Clustering and PCA

2015-04-22

machine learning Regularization (Week 3) exercise

machine learning Regularization (Week 3) exercise

2015-04-20

machine learning week7 作业解答

couresa machine learning week7 作业解答

2015-04-19

挖金子小游戏

挖金子小游戏,借鉴别人的,适合C++,win32入门

2014-11-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除