2015年05月_zjxiaolu

转载从机器学习谈起

在本篇文章中，我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习，并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇，从这里开始，必须对机器学习了解才能进一步介绍EasyPR的内核。当然，本文也面对一般读者，不会对阅读有相关的前提要求。在进入正题前，我想读者心中可能会有一个疑惑：机器学习有什么重要性，以至于要阅读完这篇非常长的文章呢？我

2015-05-30 14:34:01 528

转载 PLSA(Probability Latent Semantic Analysis)

PLSA是更为先进的方法。他解决了同义词和多义词的问题，利用了强化的期望最大化算法（EM）来训练隐含类（潜在类）。而且相对了LSA，有了坚实的统计学基础。PLSA的建模——层面模型层面模型就是关联于潜在类Z的共现表的潜在可变模型。在层面模型中，文档被视为潜在的K个层面的混合。每一个层面就是word对于z(潜在类)的概率分布。PLSA的建模——数据的共现对于每一组（w

2015-05-28 16:00:13 841

转载【0-1】矩阵分解

基于矩阵分解的推荐算法已经在工业界被广泛应用。这类算法希望用同一个空间的维度来描述推荐过程中两个实体（用户、物品）的隐语义的特征。无论是基于数值的矩阵分解如PMF[SVD]，还是基于概率的矩阵分解如PLSA、LDA，都是如此。只不过，用于PMF分解的评分矩阵中包含了用户对所访问物品的评分，而PLSA、LDA面对的数据则只能是用户有过某种访问行为的物品集合。

2015-05-28 15:09:26 2557 3

转载下载的PDF文献应该如何命名？

科技文献的标题大多很长，不适合做文件名，那应该如何命名才能一目了然让自己知道是哪篇文献呢？高效工作流程一、基本原则：你要有意识地形成一个比较高效的工作流程（workflow）也就是说，从在网上看到一篇paper，到你日后某天要找到一篇paper的PDF，整个的流程要固定，不能一会儿这样一会儿那样；也要高效，不能把太多时间就花在整这个上面。也许这是理工科思维，先花专

2015-05-06 11:03:21 7855

转载研究生、科研人员须知的文献管理软件及一个学术会议网站

文献管理软件：EndNote；学术会议网站：中国学术会议在线现在是网络社会，我们每天面对海量的信息和数据，怎么从这些浩如烟海的信息中找到我们需要的东西，而又会相对节约大量的时间呢？那就至少要掌握一种文献管理软件吧！在我们没有学会文献管理软件时，都曾经或多或少的遇到过这样几种烦恼：1.下载下来的文献资料，时间长了，就不知道哪些看了，哪些没有看；2.特别是要写文章时，不

2015-05-06 02:01:04 1516

转载整理牛人看文献的方法

总结一[1] （从phd到现在工作半年，发了12篇paper，7篇firstauthor.）我现在每天还保持读至少2-3篇的文献的习惯。读文献有不同的读法。但最重要的自己总结概括这篇文献到底说了什么，否则就是白读，读的时候好像什么都明白，一合上就什么都不知道，这是读文献的大忌，既浪费时间，最重要的是，没有养成良好的习惯，导致以后不愿意读文献。

2015-05-06 01:56:15 16960 2

转载自学成才秘籍！机器学习&深度学习经典资料汇总

《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最

2015-05-05 17:54:57 8563 1

转载梯度下降 VS 随机梯度下降

样本个数m，x为n维向量。h_theta(x) = theta^t * x梯度下降需要把m个样本全部带入计算，迭代一次计算量为m*n^2VS 随机梯度下降" title="梯度下降 VS 随机梯度下降" style="margin:0px; padding:0px; border:0px; list-style:none">随机梯度下降每次只使用一个样本，迭代一

2015-05-04 20:01:38 617

转载 [笔记]线性回归&梯度下降

一、总述线性回归算法属于监督学习的一种，主要用于模型为连续函数的数值预测。过程总得来说就是初步建模后，通过训练集合确定模型参数，得到最终预测函数，此时输入自变量即可得到预测值。二、基本过程1、初步建模。确定假设函数 h(x) （最终预测用）2、建立价值函数 J(θ) （也叫目标函数、损失函数等，求参数 θ 用）3、求参数 θ 。对价值函数求偏导（即梯

2015-05-04 19:56:44 422

转载随机梯度下降（Stochastic gradient descent）和批量梯度下降（Batch gradient descent ）的公式对比、实现对比

梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机梯度下降和批量梯度下降是两种迭代求解思路，下面从公式和实现的角度对两者进行分析，如有哪个方面写的不对，希望网友纠正。下面的h(x)是要拟合的函数，J(theta)损失函数，theta是参数，要迭代求解的值，theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数，j是参数的个数。

2015-05-04 19:55:10 455

转载【基础】常用的机器学习&数据挖掘知识点

Basis(基础)：MSE(Mean Square Error 均方误差)，LMS(LeastMeanSquare 最小均方)，LSM(Least Square Methods 最小二乘法)，MLE(MaximumLikelihoodEstimation最大似然估计)，QP(Quadratic Programming 二次规划)，CP(Conditional Probability条件概率)，

2015-05-04 19:41:04 729

转载机器学习算法基础概念学习总结

1.基础概念：(1) 10折交叉验证：英文名是10-fold cross-validation，用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据，1分作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证，在求其平均值，对算法的准确性进行估计。

2015-05-04 19:39:11 698

转载 Just Works：Jeff Dean斯坦福演讲启示

【IT168 评论】MapReduce、BigTable 等系统的创造者 Jeff Dean 于 2013 年 1 月 19 日在斯坦福大学演讲的内容纵贯系统软件与机器学习两大领域。通过对资源共享及其带来的响应时间波动问题、异步分布式随机梯度下降算法及其应用这两块主要内容的介绍，Jeff Dean 深入展示了通用、简洁、Just Works 系统的强大魅力。同时演讲中展示的在深度学习领域取得的突破

2015-05-04 19:34:32 960

转载深度学习中梯度下降知识准备

考虑一个代价函数C , 它根据参数向量计算出当前迭代模型的代价，记作C( ). 机器学习中，我们的任务就是得到代价的最小值，在机器学习中代价函数通常是损失函数的均值，或者是它的数学期望。见下图：这个叫做泛化损失，在监督学过程中，我们知道z=(x,y) ,并且 f （x) 是对y的预测。什么是这里的梯度呢？当是标量的时候，代价函数的梯度可表示如

2015-05-04 19:27:21 830

转载译文：机器学习算法基础知识

在我们了解了需要解决的机器学习问题的类型之后，我们可以开始考虑搜集来的数据的类型以及我们可以尝试的机器学习算法。在这个帖子里，我们会介绍一遍最流行的机器学习算法。通过浏览主要的算法来大致了解可以利用的方法是很有帮助的。可利用的算法非常之多。困难之处在于既有不同种类的方法，也有对这些方法的扩展。这导致很快就难以区分到底什么才是正统的算法。在这个帖子里，我希望给你两种方式来思考和区分在这个领域

2015-05-04 19:26:31 1336

转载从密歇根湖畔到“中国硅谷”中关村——访微软亚太研发集团总监芮勇博士

芮勇　　芮勇博士看上去非常年轻，且仿佛总是精力过人。他的目光炯炯有神、充满自信，但却没有丝毫凌人的傲气。就像大学里极富亲和力的青年老师，他用广博的学识折服你，用亲切的态度影响你——也许一开始你并不觉得什么，但在某一刻你会突然发现，原来不知不觉的，对此人的敬重和亲近感已深植于你的心中。　　刚过不惑之年，芮勇却早已是国际电气电子工程协会院士（IEEE Fellow）、国际光学图像协会院

2015-05-02 23:16:10 2188

转载 [deep learning] 最近看过的部分论文

托deep learning的福，这个自学之余的简单总结一直是我豆瓣上浏览和推荐数最多的日志，在这里感谢大家的肯定。然而，deep learning是一个高速发展的领域，自那时起已经更新了许多（错误的）认识，以下内容某种意义上早已过时了。很遗憾，我脱离deep learning的学习和研究已经整整两年了，所以对它最新的发展只是略知皮毛。有志于学习和应用deep learning的豆友，不妨参考

2015-05-01 20:19:25 791

转载推荐！国外程序员整理的机器学习资源大全

本文汇编了一些机器学习领域的框架、库以及软件（按编程语言排序）。C++计算机视觉CCV —基于C语言/提供缓存/核心的机器视觉库，新颖的机器视觉库OpenCV—它提供C++, C, Python, Java 以及 MATLAB接口，并支持Windows, Linux, Android and Mac OS操作系统。通用机器学习MLPackDLibecog

2015-05-01 20:16:33 759

转载 Stacked Autoencoders

博文内容参照网页Stacked Autoencoders，Stacked Autocoders是栈式的自编码器（参考网页Autoencoder and Sparsity和博文自编码与稀疏性），就是多层的自编码器，把前一层自编码器的输出（中间隐藏层）作为后一层自编码器的输入，其实就是把很多自编码器的编码部分叠加起来，然后再叠加对应自编码器的解码部分，这样就是一个含有多个隐含层的自编码器了。本博文

2015-05-01 20:05:23 874

转载数据降维工具箱drtoolbox

这个工具箱的主页如下，现在的最新版本是2013.3.21更新，版本v0.8.1bhttp://homepage.tudelft.nl/19j49/Matlab_Toolbox_for_Dimensionality_Reduction.html 这里有两个这个工具箱的简单介绍：【Matlab】数据降维工具箱drtoolboxhttp://blog.csdn.net/x

2015-05-01 20:01:47 1101

xiaolu的专栏