NLP/DeepLearning
码上的生活
Don't you want to take a leap of faith? Or become an old man, filled with regret ?
展开
-
使用逻辑回归进行MNIST分类(Classifying MNIST using Logistic Regressing)
本节假定读者属性了下面的Theano概念:共享变量(shared variable), 基本数学算子(basic arithmetic ops), Theano的进阶(T.grad), floatX(默认为float64)。假如你想要在你的GPU上跑你的代码,你也需要看GPU。本节的所有代码可以在这里下载。在这一节,我们将展示Theano如何实现最基本的分类器:逻辑回归分类器。我们以模型的快速入门开原创 2015-10-22 23:35:53 · 2623 阅读 · 0 评论 -
从头开始实现一个神经网络
在这篇文章中,我们会从头开始实现一个简单的3层神经网络。我们不会去推导所需的数学公式,但是我会试着给一个直观的解释我们在做什么。我也会指出具体的阅读资源。 在这里我假设您熟悉基本的微积分和机器学习的概念,例如:你知道什么是分类和正规化。理想情况下你也知道一点关于像梯度下降优化技术是如何工作的。但即使你不熟悉任何上面的这篇文章仍有可能是有趣的。但是为什么从头实现神经网络呢?即使你打算在将来使用像PyB翻译 2015-09-06 17:07:26 · 4659 阅读 · 1 评论 -
[Exercise 4] Regularization
在这个练习中,会实现加入正则的线性回归和逻辑回归。数据:ex5Data.zip,数据拟合的过程中很容易出现的问题就是过拟合(over fitting),所以需要正则化来进行模型的选择。实验基础Regularized linear regression五阶多项式 最小化的损失函数: 回想一下我们前面的Normal equations: Regularized logistic reg原创 2015-07-20 10:23:52 · 767 阅读 · 0 评论 -
奇异值分解(We Recommend a Singular Value Decomposition)
原文作者:David Austin原文链接: http://www.ams.org/samplings/feature-column/fcarc-svd译者:richardsun(孙振龙)在这篇文章中,我们以几何的视角去观察矩阵奇异值分解的过程,并且列举一些奇异值分解的应用。介绍矩阵奇异值分解是本科数学课程中的必学部分,但往往被大家忽略。这个分解除了很直观,更重要的是非常具有实转载 2015-07-16 10:50:34 · 637 阅读 · 0 评论 -
[Exercise 3] Logistic Regression and Newton's Method
这个练习将通过牛顿方法来实现逻辑回归分类。Dataex4Data.zip这里给出的训练样本的特征为80个学生的两门功课的分数.样本值为对应的同学是否允许被上大学,如果是允许的话则用’1’表示,否则不允许就用’0’表示。学生成绩由Test1的成绩 和Test2 的成绩组成。我们关注的是 θ\theta怎样获得,多少次迭代后能收敛预测学生成绩是[20 80] 是否被允许可视化我们的初始数据原创 2015-07-15 11:30:04 · 1107 阅读 · 0 评论 -
[Exercise 2] 多元线性回归
上一节我们实现了二元线性回归。在这个练习中,会使用梯度下降和normal equations实现多元线性回归.同时也会检查损失函数,收敛梯度和学习率的关系。参考Exercise: Multivariate Linear Regression我们要预测的是1650,且有3个bedrooms的房子的价格。Data先看看数据集,训练集是Porland,Oregon地区的价格作为y(i)y^{(i)},输入原创 2015-07-14 10:05:21 · 535 阅读 · 0 评论 -
[Exercise 1] Linear Regression
数据描述这次练习是多元线性回归中最简单的二元线性回归,参考exericse1给出的题目,50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄小数形式呈现。Y为这50个小朋友对应的身高,小数形式表示的。线性回归回想一下线性回归模型:hθ(x)=θTx=∑i=1nθixih_\theta(x) = \theta^Tx=\sum_{i=1}^n \theta_ix_i 梯度更新规则:原创 2015-07-10 15:41:23 · 751 阅读 · 0 评论 -
常用资源整理
ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):一ufldl的2个教程(这个没得说,入门绝对的好教程,Ng的,逻辑清晰有练习):二Bengio团队的deep learning教程,用的theano库,主要是rbm系列,搞python的可以参考,很不错。deeplearning.net主页,里面包含的信息量非常多,有software, reading lis转载 2015-06-10 16:19:45 · 751 阅读 · 0 评论 -
python数据挖掘领域工具包
原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域,有两个重要的扩展模块:Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括:一个强大的N维数组对象Array;比较成熟的(广播)函数库;用于整合C/C++和Fortran代码的工具包;实用的线转载 2015-06-10 00:59:32 · 687 阅读 · 0 评论 -
MeTA is a modern C++ data sciences toolkit featuring
text tokenization, including deep semantic features like parse treesinverted and forward indexes with compression and various caching strategiesa collection of ranking functions for searching the ind原创 2015-06-08 23:19:25 · 673 阅读 · 0 评论 -
Deep Learning for NLP 文章列举 | 持之以恒
慢慢补充大部分文章来自:http://www.socher.org/http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial包括从他们里面的论文里找到的related work Word Embedding LearnigSENNA原始论文【ACL'07】Fast Semanti转载 2015-06-06 21:13:01 · 522 阅读 · 0 评论 -
MNIST Dataset
准备做点实验,这里介绍一下需要用到的数据集。下载mnist.pkl.gz or git clone git://github.com/lisa-lab/DeepLearningTutorials.gitMNISTS数据集由手写数字图像组成。划分60,000样例作为训练数据集10,000样例作为测试集。在许多文章同时也在这个tutorial里面将60,000实际划分成50,000个测试集和10,原创 2015-06-24 14:41:03 · 4645 阅读 · 0 评论 -
[工具]python中文分词---【jieba】
jieba“结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documentation.特点支持三转载 2015-03-23 17:20:19 · 8857 阅读 · 0 评论