- 博客(20)
- 资源 (4)
- 收藏
- 关注
原创 基于CNN的短文本分类实验 PPT
基于卷积神经网络的短文本分类实验,在搜狐新闻上取得了不错的分类效果,但情感分析的效果很差,需要继续改进。
2016-03-18 20:15:38 5886 3
原创 Python中的readlines函数读取到特殊字符时会截断导致文件读取不完整
Python 2.7.8 f = open(path, 'r') text_src = [line.strip() for line in f.readlines()]逐行读取一个文本文件(utf-8编码)到一个list,发现list的元素个数比文本文件的行数小得多。经调查,发现list内容不完整,说明readlines函数返回的不是所有行的列表。当遇到一
2016-03-08 20:34:09 2539
原创 练习使用Python+Scikit-learn预测航班延误
按照这篇博客的步骤进行。由于系统中没有安装PIG,故没有按文中的方式生成训练和测试数据,而是用Spark生成。系统环境为JDK 1.7,Spark 1.2.0, Scala 2.10.4,Python 2.7. Python最好使用集成安装包如Anaconda安装,会安装大部分扩展包。1. 安装pydoop可以使用pydoop库访问HDFS。下载后解压,在根目录执行p
2015-01-21 19:31:26 5483
原创 练习使用Spark and ML-Lib 预测航班延误
按照这篇博客的步骤进行。其中有些注意事项列在下面。系统环境为JDK 1.7,Spark 1.2.0, Scala 2.10.4。1. 下载joda-convert 1.2, 将jar包加入IntelliJ IDEA的Library路径。2. 下载joda-time, 将jar包加入IntelliJ IDEA的Library路径。
2015-01-20 22:39:19 2017 1
原创 在Python集成开发环境中调用Spark MLlib
Python拥有众多优秀的机器学习库如Scikit-Learn,然而这些机器学习库都在单机上运行,不支持集群上的分布式机器学习。Spark MLlib是Spark的机器学习库,并且支持Python。
2015-01-14 20:40:39 3003
原创 ImageNet Classification with Deep Convolutional Neural Networks 阅读理解及问题
看了这篇论文和网上的阅读笔记,还没看代码。有一些问题列在这里,看看自己以后能不能回答。1. 用GPU加速训练,论文提到是用GPU做2D卷积,而实际的网络都是3D的卷积计算,这个怎么对应?怎样计算3D卷积?2. 论文中的深度CNNs使用激活函数f(x) = max(0, x), 称为ReLU Nonlinearity。这比sigmoid、双曲正切作为激活函数在训练速度上要快好
2015-01-10 20:21:33 860
原创 SparkR安装注意事项
系统环境为CentOS 6.5 + Spark 1.2.0。首先安装R,去官方网站下载R for linux源码,目前最新版为3.1.2,解压缩后在根目录执行./configure。若出现错误“configure: error: --with-readline=yes (default) and headers/libs are not available”,则执行yum instal
2015-01-07 13:53:45 1196
原创 学习情报收集 2014-12
计划不定期收集些学习方面的信息,便于从中选择学习。YC的新主席Sam Altman与Stanford联合开了一门创业课,叫“How to start a startup”。课程请到了许多著名的创业者和投资人作为嘉宾,旨在教授所有想创业的人该如何创业。这里是带字幕版的课程视频地址:How to Start A Startup
2014-12-27 22:50:59 655
原创 Exercise:Convolution and Pooling 代码示例
练习参考Convolution and Pooling 这个练习用于处理大型图像,需要编写代码实现卷积特征提取和池化(采样)两个过程。在上一个练习中,通过小尺寸图像样本训练线性编码器得到的权重矩阵、偏差向量以及预处理的ZCA白化矩阵、均值向量存为文件STL10Features.mat。此练习利用STL10Features.mat中的特征与大图作卷积生成卷积特征矩阵。
2014-12-25 16:56:23 1789
原创 Exercise:Learning color features with Sparse Autoencoders 代码示例
练习参考Learning color features with Sparse Autoencoders将稀疏自编码器修改为线性解码器,只需把第三层改为线性函数如a(3) = z(3) 即可,并修改相应的梯度计算公式。sparseAutoencoderLinearCost.mW1 = reshape(theta(1:hiddenSize*visibleSize), hidden
2014-12-24 23:07:33 681
原创 Exercise: Implement deep networks for digit classification 代码示例
练习参考Implement deep networks for digit classification 这个练习用到了一个四层的深度神经网络。第一层是数据输入层;第二、三层是稀疏自编码器层,分别取两个稀疏自编码器的隐藏层作为第二、三层;第四层为Softmax分类器,用于分类0到9的手写数字。在训练Softmax分类器后,又对整个网络进行了微调。在微调时,需要把L2~L4这
2014-12-24 20:23:05 819
原创 Exercise:Self-Taught Learning 代码示例
练习参考Self-Taught Learning结合使用稀疏自编码器和Softmax分类器对0到4的手写数字进行分类。首先利用稀疏自编码器无监督学习手写数字5到9的特征。利用学到的权重和偏置计算手写数字0到4的激活值,并将激活值作为Softmax分类器的输入进行分类(有监督学习)。Train the sparse autoencoderopttheta = th
2014-12-23 17:13:14 619
原创 Exercise:PCA and Whitening 代码示例
练习参考PCA and Whitening,与上一个练习基本一致。更改图像数据的均值avg = mean(x,1);x = x - repmat(avg,size(x,1),1);Implement PCA to obtain xRotxRot = zeros(size(x));sigma = x * x' / size(x,2); [u,s,v
2014-12-22 16:20:05 731
原创 Exercise:Vectorization 代码示例
练习参考Vectorization需要在练习Sparse Autoencoder的基础上做。可将Sparse Autoencoder拷贝一份并重命名为Vectorization。下载教程提供的数据,解压缩后将train-images-idx3-ubyte、train-labels-idx1-ubyte、loadMNISTImages.m和loadMNISTLabels.m文件放在tra
2014-12-22 09:52:35 1006
原创 Exercise:Sparse Autoencoder 代码示例
练习参考Sparse Autoencoder第一步,生成训练数据。在sampleIMAGES.m文件中加入如下代码:
2014-12-21 16:20:42 1040
原创 Large Scale Distributed Deep Networks 阅读笔记
Large Scale Distributed Deep NetworksJeffrey Dean, Greg S. Corrado, Rajat Monga, Kai Chen,Matthieu Devin, Quoc V. Le, Mark Z. Mao, Marc’Aurelio Ranzato,Andrew Senior, Paul Tucker, Ke Yang, And
2014-12-17 09:13:00 1775
SQL_Server_7编程技术内幕
2010-12-03
SQL_Server_7资源指南
2010-12-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人