2017年04月_nana-li

转载分类算法之朴素贝叶斯分类(Naive Bayesian classification)

感谢原博主辛勤付出，原文链接：http://www.cnblogs.com/leoo2sk/archive/2010/09/17/naive-bayesian-classifier.html1.1、摘要贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。本文作为分类算法的第一篇，将首先介绍分类问题，对分类问题进行一个

2017-04-29 17:18:54 678

转载向量空间模型(VSM)在文档相似度计算上的简单介绍

C#实现在：http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d

2017-04-29 15:30:24 2249

原创 Machine Learning第六讲[应用机器学习的建议] --（三）建立一个垃圾邮件分类器

内容来自Andrew老师课程Machine Learning的第六章内容的Building a Spam Classifier部分。一、Prioritizing What to Work on在垃圾邮件分类的问题中，我们首先需要选出很多特征，根据这些特征使用训练集训练，然后使用验证集验证误差，最后使用这个模型预测结果。在这个问题中，输入的x形式为：也即：

2017-04-27 10:43:27 2222

转载机器学习：准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线

以下第一部分内容转载自：机器学习算法中的准确率(Precision)、召回率(Recall)、F值(F-Measure)是怎么一回事摘要：数据挖掘、机器学习和推荐系统中的评测指标—准确率(Precision)、召回率(Recall)、F值(F-Measure)简介。引言：在机器学习、数据挖掘、推荐系统完成建模之后，需要对模型的效果做评价。业内目前常常采用的评价指标有准确率(Precision)、召

2017-04-26 20:56:37 286048 42

原创 Machine Learning第六讲[应用机器学习的建议] --（二）诊断偏差和方差

内容来自Andrew老师课程Machine Learning的第六章内容的Bias vs. Variance部分。一、Diagnosing Bias vs. Variance如果一个算法表现的不理想，多半是出现两种情况，一种情况是偏差比较大（这种情况是欠拟合情况），另一种是方差比较大（这种情况是过拟合的情况）。下图是欠拟合、刚好、过拟合三种情况的Size-price图（仍然是预测房

2017-04-26 16:09:57 1250

原创 Machine Learning第六讲[应用机器学习的建议] --（一）评估学习算法

内容来自Andrew老师课程Machine Learning的第六章内容的Evaluating a Learning Algorithm部分。一、Evaluating a Hypothesis即使我们已经实现了某种算法，但是我们可能会发现这种算法存在很大的问题，这就涉及到了模型的选择和改进。在模型选择和改进之前，我们先来看些该如何评估一个模型。对于有2个特征的假设函

2017-04-25 17:07:05 855

原创 Machine Learning第五讲[神经网络: 学习] --（二）实践中的BP算法

内容来自Andrew老师课程Machine Learning的第五章内容的Backpropagation in Practice部分。一、Implementation Note: Unrolling Parameters1、优化算法的模板：2、下面是怎样将矩阵转化成向量，以及怎样将向量转化成矩阵。3、学习算法为什么我们要进行矩阵和

2017-04-24 12:52:43 811

原创 Machine Learning第五讲[神经网络: 学习] --（一）代价函数和BP算法

内容来自Andrew老师课程Machine Learning的第五章内容的Cost Function and Backpropagation部分。一、Cost Function1、先来看一下两个术语：L和的含义（1）L是指神经网络的层数（2）是指第l层的单元数目（不包含偏执神经元）图的下半部分比较了二元分类和多元分类中，K值的大小。2、下面是神经网络的代价函

2017-04-23 15:35:49 4803

原创用户画像设计示例

更新 -- 20180905用户画像指通过挖掘用户信息来更好的描述用户的特征，是将数据标签化的过程。对用户画像的设计主要包括两大类信息：①可直接获取信息或者通过简单聚合操作得到的特征；②挖掘类特征。挖掘类特征指可以根据用户的直接行为信息挖掘出用户的潜在兴趣爱好等。下面是一个实例简单说明用户画像的设计：下面以电商平台用户画像的设计为例，我们的目的是找到那些比较忠于本平台的卖家。简单业...

2017-04-23 09:15:48 8161

原创 Machine Learning第四讲[神经网络: 表示] --（三）应用

内容来自Andrew老师课程Machine Learning的第四章内容的Applications部分。本部分内容主要是举几个简单的神经网络的简单例子。我们首先来回顾一下神经网络的激励函数：这个函数的值域为（0，1），其图像如下图所示：这个图形将有助于我们在真值表中激励函数结果的理解。实例1：AND功能如上图所示，激励函数为：

2017-04-22 16:29:58 771

原创 Machine Learning第四讲[神经网络: 表示] --（二）神经网络

内容来自Andrew老师课程Machine Learning的第四章内容的Neural Networks部分。一、Model Representation I（模型表示I）本节讲述在使用神经网络时，我们应该如何表示假设或模型。1、仿照人脑的机能，神经网络就是输入一些信息，通过中间层的一些处理，最后输出结果。具体的名词或者过程详见下图：

2017-04-22 12:42:06 846

原创 Machine Learning第四讲[神经网络: 表示] --（一）动因

内容来自Andrew老师课程Machine Learning的第四章内容的Motivations部分。一、Non-linear Hypotheses（非线性假设）1、如下图，在logistic回归中，我们通过定义多项式来训练一个拟合函数，使其能够拟合较多的数据。对于只有2个特征的多项式，这种方式可能会比较适合，但是在其他的应用中，遇到的可能是有很多个特征值，比如：对于上述这个具

2017-04-21 21:39:06 403

原创 Machine Learning第三讲[Logistic回归] --（四）解决过拟合问题

内容来自Andrew老师课程Machine Learning的第三章内容的Solving the Problem of Overfitting部分。一、The Problem of Overfitting（过拟合问题）1、下面是线性回归的例子，图一、图二、图三反映了三种情况，下见图注释。 2、下面是logistic回归的例子，同样，图一、图二、图三反映了三种情况： 3、过拟合问

2017-04-21 15:33:22 4987

原创 Machine Learning第三讲[Logistic回归] --（三）多元分类

内容来自Andrew老师课程Machine Learning的第三章内容的Multiclass Classification部分。一、Multiclass Classification: One-vs-all（多元分类：一对多）（1）下图左边是二元分类的图形，右边是三元分类的图形（代表多元分类）。在二元分类中，我们可以划出一条拟合曲线（直线、曲线、圆或者椭圆等），那么在多元分类中，我们不能

2017-04-17 22:52:18 5144

原创 Machine Learning第三讲[Logistic回归] --（二）Logistic回归模型

内容来自Andrew老师课程Machine Learning的第三章内容的Logistic Regression Model部分。一、Cost Function（代价函数）有m个样本的训练集：，，x0=1，y∈{0，1} 在上篇博文中提到假设函数：那么，我们如何选择参数theta呢？在线性回归模型中，，令，为方便记录，将此等式记为：因为是非线性的，故也是非线性的，将其

2017-04-15 22:33:11 1083 5

原创 Machine Learning第三讲[Logistic回归] --（一）分类和表示

内容来自Andrew老师课程Machine Learning的第三章内容的Classification and Representation部分。一、Classification（一）分类问题举例（1）一封邮件是垃圾邮件还是非垃圾邮件（2）肿瘤是良性的还是恶性的（3）网上交易是欺骗交易还是非欺骗交易（二）概念引入上述几个例子所描述的问题都是二元分类，即y∈{0，1}，其中0表示“Negati

2017-04-15 16:03:14 741

原创 Hadoop安装包目录下几个比较重要的目录及其作用

1、sbin目录：存放启动或停止hadoop相关服务的脚本2、bin目录：存放对hadoop相关服务（HDFS,YARN）进行操作的脚本3、etc目录：hadoop的配置文件目录，存放hadoop的配置文件4、share目录：存放hadoop的依赖jar包和文档，文档可以被删除掉5、lib目录：存放hadoop的本地库（对数据进行压缩解压缩功能）

2017-04-14 23:15:22 9038

原创 Hadoop安装以及伪分布模式搭建过程

一、前提（1）环境：Ubuntu 16.04 （2）需要软件：JDK 1.8 和 Hadoop-2.8.0二、安装JDK安装的详细过程参见博文：博文链接三、安装Hadoop下载地址：http://hadoop.apache.org/releases.html我选的是hadoop 2.8.0，选择binary版本。（source是源码，如果在工作中需要修改源码之后再运行，则可以选择source），如

2017-04-14 23:02:06 2470

转载 Linux（Ubuntu）下如何安装JDK

Linux 下如何安装 JDK ，以 Ubuntu 为例。一、下载首先，当然是要下载了。地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html按照需要选择不同的版本。笔者选择的是 jdk-7u45，如图：二、解压将下载下来的 .tar.gz 文件解压。使用如下命令解压：

2017-04-13 22:36:09 1747

原创 Ubuntu下出现的小问题及解决方案记录（持续更新）

1、打开/ect/rc.local这个文件（需要root权限）命令：sudo degit /ect/rc.local 其中，sudo是相当于解决root权限问题，拥有最高权限；degit类似于windows中的notepad功能，相当于一文本方式打开此文件。此文件执行命令后便是一root用户打开的，可以直接对文本进行修改（如果直接在可视化图形界面中找到此文件，打开是一用户形式，没有修改权限）。

2017-04-13 22:02:50 559

原创 Octave/Matlab中.（./）和（/）的区别

1、* 和 .* 的区别（1）* 就是通常我们在线性代数中使用的矩阵乘法的符号，设A是m*n矩阵，B是n*t矩阵，则A*B是m*t矩阵（A*B只要求A的列数=B的行数）。举例：则：（2）.* 和平时所使用的* 是不同的，.* 只能应用在同型的矩阵中，若A是m*n矩阵，则B也必须是m*n矩阵，A.* B的(i，j)个值是A的(i，j)的值*B的(i，j)

2017-04-12 15:56:44 3912

原创 Machine Learning第二讲[多变量线性回归] --（三）向量化

内容来自Andrew老师课程Machine Learning的第二章内容的Vectorization部分。一、Vectorization后半部分内容摘自：原文链接1、向量化示例，以h(x)为例，说明特征变量向量化： 2、将代价函数向量化。含有多个特征变量的假设函数为：含有多个特征变量的代价函数为：先看h(x)和theta：将其代入h(x)，则h(x)

2017-04-12 14:13:49 1562

原创 Machine Learning第二讲[多变量线性回归] -（二）计算参数分析

内容来自Andrew老师课程Machine Learning的第二章内容的Computing Parameters Analytically部分。一、Normal Equation使用梯度下降法得到最优值，需要多次更新的值，而使用正规方程法只需要一次求解便可得到的值，但是其也有一些优缺点。1、提到最优值，一般会想到利用求导的方法，如下图：但是按照微积分的方法，将这些求导后的等式求解后得到thet

2017-04-11 18:51:11 1538

原创 Machine Learning第二讲[多变量线性回归] --（一）多变量线性回归

内容来自Andrew老师课程Machine Learning的第二章内容的Multivariate Linear Regression部分。一、Multiple Features1、名词（1）m：样本的数量，上例中m=4 （2）n：特征数目，上例中n=4 （3）：第i个训练样本的所有特征值上例中，（4）：第i个训练样本的第j个特征值上例

2017-04-10 20:11:04 1841

原创 Machine Learning第一讲[单变量线性回顾] --（三）线性代数知识复习（选学）

内容来自Andrew老师课程Machine Learning的第一章内容的Linear Algebra Reviw部分。一、矩阵和向量1、矩阵矩阵一般用大写字母表示（1）矩阵示例：（2）矩阵维度：矩阵的行数*矩阵的列数在上图矩阵中，A的维度是4*2=8，B的维度是2*3=6（3）表示矩阵A的第i行第j列的元素。以矩阵A为例： = 1402 = 191

2017-04-09 18:58:37 627

原创 Machine Learning第一讲[单变量线性回归] --（二）参数学习

内容来自Andrew老师课程Machine Learning的第一章内容的Parameter Learning部分。一、Gradient Descent（梯度下降）梯度下降算法可将代价函数J最小化，梯度下降算法不仅应用在线性回归中，也应用在机器学习的其他诸多领域。使用梯度下降算法最小化函数J的过程： S1：初试化和的值，一般都将其设为0。 S2：使用算法不断变化和的值，使得的值不...

2017-04-08 20:09:04 784 2

原创 Machine Learning第一讲[单变量线性回归] --（一）模型和代价函数

内容来自Andrew老师课程Machine Learning的第一章内容的Model and Cost Function部分。一、Model Representation1、简单术语 m：训练样本的数目 x：输入变量/特征 y：输出变量/目标变量：表示训练集的第i行2、举例： 3、学习算法的工作 h表示hypothesis（假设）4、线性回归拟合曲线二、Cost Function线

2017-04-08 10:06:26 1137

小太阳~