2016年10月_TaoTaoFu

转载 C4.5分类树

1. 算法背景介绍分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习说白了很简单，就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。分类本质上就是一个map的过程。C4.5分类树就是决策树算法中最流行的一种。下面给出一个数据集作为算法例子的基

2016-10-29 21:56:00 554

转载机器学习-逻辑回归-参数迭代公式推导

原始出处：http://sbp810050504.blog.51cto.com/2799422/1608064在《机器学习实战》一书的第5章中讲到了Logistic用于二分类问题。书中只是给出梯度上升算法代码，但是并没有给出数学推导。故哪怕是简单的几行代码，依然难以理解。对于Logistic回归模型而言，需要读者具有高等数学、线性代数、概率论和数理统计的基础的数学

2016-10-26 23:46:59 2662

转载机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size

本文是《Neural networks and deep learning》概览中第三章的一部分，讲机器学习算法中，如何选取初始的超参数的值。（本文会不断补充）学习速率（learning rate，η）运用梯度下降算法进行优化时，权重的更新规则中，在梯度项前会乘以一个系数，这个系数就叫学习速率η。下面讨论在训练时选取η的策略。固定的学习速率。如果学习速率太小，则会

2016-10-23 17:54:07 783

转载 logistic回归模型【求解参数方法汇总】

此文引至：http://blog.csdn.net/u014664226/article/details/516855671.logistic回归模型logistic回归是用线性模型解决分类问题的算法考虑现在有一个样本集合，样本特征有两维，要用一条直线作为这两类的分界线，如下图所示也就是说logistic算法就是要找到这么一条直线，使得可以对样本进行分类

2016-10-23 11:19:19 10700

转载机器学习之神经网络模型-下（Neural Networks: Representation）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4089123.html3. Model Representation I1神经网络是在模仿大脑中的神经元或者神经网络时发明的。因此，要解释如何表示模型假设，我们不妨先来看单个神经元在大脑中是什么样的。我们的大脑中充满了如上图所示的这样的神经元，神经元是大脑中的细胞。

2016-10-21 11:18:55 586

转载机器学习之神经网络模型-上（Neural Networks: Representation）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4086806.html在这篇文章中，我们一起来讨论一种叫作“神经网络”(Neural Network)的机器学习算法，这也是我硕士阶段的研究方向。我们将首先讨论神经网络的表层结构，在之后再具体讨论神经网络学习算法。神经网络实际上是一个相对古老的算法，并且沉寂了一段时间，不过到了现在它又

2016-10-21 11:17:37 597

转载机器学习之逻辑回归（Logistic Regression）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4070149.html1. Classification这篇文章我们来讨论分类问题（classification problems），也就是说你想预测的变量 y 是一个离散的值。我们会使用逻辑回归算法来解决分类问题。之前的文章中，我们讨论的垃圾邮件分类实际上就是一个分类问题。类似的例子还有

2016-10-21 11:14:26 465

转载机器学习之多变量线性回归（Linear Regression with multiple variables）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4055333.html1. Multiple features（多维特征）在机器学习之单变量线性回归（Linear Regression with One Variable）我们提到过的线性回归中，我们只有一个单一特征量（变量）——房屋面积x。我们希望使用这个特征量来预测房子的价格。我们的

2016-10-21 11:13:21 2550

转载机器学习之多变量线性回归（Linear Regression with multiple variables）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4055333.html1. Multiple features（多维特征）在机器学习之单变量线性回归（Linear Regression with One Variable）我们提到过的线性回归中，我们只有一个单一特征量（变量）——房屋面积x。我们希望使用这个特征量来预测房子的价格。我

2016-10-21 11:11:31 686

转载机器学习之单变量线性回归（Linear Regression with One Variable）

本文引至：http://www.cnblogs.com/jianxinzhou/p/4020090.html1. 模型表达（Model Representation）我们的第一个学习算法是线性回归算法，让我们通过一个例子来开始。这个例子用来预测住房价格，我们使用一个数据集，该数据集包含俄勒冈州波特兰市的住房价格。在这里，我要根据不同房屋尺寸所售出的价格，画出我的数据集：

2016-10-21 11:10:10 577

转载 Introduction to Machine Learning

本文引至：http://www.cnblogs.com/jianxinzhou/p/4019949.html引言本系列文章是本人对Andrew NG的机器学习课程的一些笔记，如有错误，请读者以课程为准。在现实生活中，我们每天都可能在不知不觉中使用了各种各样的机器学习算法。例如，当你每一次使用 Google 时，它之所以可以运行良好，其中一个重要原因便是由 Googl

2016-10-21 11:08:44 394

转载机器学习之正则化（Regularization）

1 The Problem of Overfitting1还是来看预测房价的这个例子，我们先对该数据做线性回归，也就是左边第一张图。如果这么做，我们可以获得拟合数据的这样一条直线，但是，实际上这并不是一个很好的模型。我们看看这些数据，很明显，随着房子面积增大，住房价格的变化趋于稳定或者说越往右越平缓。因此线性回归并没有很好拟合训练数据。我们把此类情况

2016-10-21 10:50:24 442

转载数据的离散化处理

离散化指把连续型数据切分为若干“段”，也称bin，是数据分析中常用的手段。切分的原则有等距，等频，优化，或根据数据特点而定。在营销数据挖掘中，离散化得到普遍采用。究其原因，有这样几点：①算法需要。例如决策树，NaiveBayes等算法本身不能直接使用连续型变量，连续型数据只有经离散处理后才能进入算法引擎。这一点在使用具体软件时可能不明显。因为大多数数据挖掘软件内已经内建了离散化处理程序，所

2016-10-18 17:04:41 13335 1

转载 Logistic回归原理【似然函数与梯度选择】

Logistic回归为概率型非线性回归模型，是研究二分类观察结果与一些影响因素之间关系的一种多变量分析方法。通常的问题是，研究某些因素条件下某个结果是否发生，比如医学中根据病人的一些症状来判断它是否患有某种病。在讲解Logistic回归理论之前，我们先从LR分类器说起。LR分类器，即Logistic Regression Classifier。在分类情形下

2016-10-16 18:24:25 9331

转载梯度下降与梯度上升

梯度下降法是机器学习和神经网络学科中我们最早接触的算法之一。但是对于初学者，我们对于这个算法是如何迭代运行的从而达到目的有些迷惑。在这里给出我对这个算法的几何理解，有不对的地方请批评指正！梯度下降法定义（维基百科）梯度下降法，基于这样的观察：如果实值函数在点处可微且有定义，那么函数在点沿着梯度相反的方向下降最快。

2016-10-16 17:40:36 1051

转载 python实现决策树C4.5算法(ID3基础上改进)

一、概论 C4.5主要是在ID3的基础上改进，ID3选择（属性）树节点是选择信息增益值最大的属性作为节点。而C4.5引入了新概念“信息增益率”,C4.5是选择信息增益率最大的属性作为树节点。二、信息增益以上公式是求信息增益率（ID3的知识点）三、信息增益率信息增益率是在求出信息增益值在除以。例如下面公式为求属性为“outlook”的值：四

2016-10-16 10:38:10 906

转载决策树【C4.5算法】

1. C4.5算法简介 C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的

2016-10-15 22:52:30 2045

原创 JDBC 练习

import java.sql.*;import java.util.ArrayList;import javax.sql.*;public class DBTest {Connection connection;Statement statement;ResultSet resaultset;public DBTest() {sup

2016-10-15 20:05:32 1284

转载 Java JDBC批处理插入数据操作

Java JDBC批处理插入数据操作在此笔记里，我们将看到我们如何可以使用像Statement和PreparedStatement JDBC API来批量在任何数据库中插入数据。此外，我们将努力探索一些场景，如在内存不足时正常运行，以及如何优化批量操作。首先，使用Java JDBC基本的API批量插入数据到数据库中。Simple Batch - 简单批处理

2016-10-15 19:59:43 435

转载朴素贝叶斯算法【变量连续与间断的讨论】

生活中很多场合需要用到分类，比如新闻分类、病人分类等等。本文介绍朴素贝叶斯分类器（Naive Bayes classifier），它是一种简单有效的常用分类算法。一、病人分类的例子让我从一个例子开始讲起，你会看到贝叶斯分类器很好懂，一点都不难。某个医院早上收了六个门诊病人，如下表。　　症状　　职业　　　疾病　　打喷嚏　护士　　　感冒

2016-10-13 15:01:58 7073 3

转载朴素贝叶斯算法

0、写在前面的话我个人一直很喜欢算法一类的东西，在我看来算法是人类智慧的精华，其中蕴含着无与伦比的美感。而每次将学过的算法应用到实际中，并解决了实际问题后，那种快感更是我在其它地方体会不到的。一直想写关于算法的博文，也曾写过零散的两篇，但也许是相比于工程性文章来说太小众，并没有引起大家的兴趣。最近面临毕业找工作，为了能给自己增加筹码，决定再次复习算法方面的知识，我决

2016-10-12 23:30:16 935

转载 Weka标签在java中的变量表示

RWeka (http://cran.r-project.org/web/packages/RWeka/index.html) ： 1) 数据输入和输出 WOW()：查看Weka函数的参数。 Weka_control()：设置Weka函数的参数。 read.arff()：读Weka Attribute-Relation File Format (ARFF)格式的数据。 wr

2016-10-11 16:50:01 1373

转载 Java中调用Weka中的Apriori算法

package test;import java.io.BufferedReader;import java.io.FileReader;import java.io.IOException;import weka.associations.Apriori;import weka.core.Instances;public class Apr

2016-10-11 16:46:46 2544

转载 Eclipse中使用Weka

weka是很好用的机器学习库，这里就不详细介绍了。言归正传，要使用程序方式使用weka，步骤如下：一、在eclipse里新建一个Java project：1. 建立工程：单击菜单中file->new->Java project，在弹出对话框的project name中起任意一个名字，此处假设是wekaTest。单击Finish按钮（在对话框底部）。2. 建立

2016-10-11 16:42:10 2461 1

转载 Eclipse 插件开发

Eclipse 是一个很让人着迷的开发环境，它提供的核心框架和可扩展的插件机制给广大的程序员提供了无限的想象和创造空间。目前网上流传相当丰富且全面的开发工具方面的插件，但是 Eclipse 已经超越了开发环境的概念，可以想象 Eclipse 将成为未来的集成的桌面环境。目前的 Eclipse 本身就具备资源管理和外部程序的功能，加上无所不能的插件，将构成一个丰富多彩的工作环境而不仅仅是一个 I

2016-10-10 21:02:47 13945 2

转载决策树的绘制

在看机器学习实战时候，到第三章的对决策树画图的时候，有一段递归函数怎么都看不懂，因为以后想选这个方向为自己的职业导向，抱着精看的态度，对这本树进行地毯式扫描，所以就没跳过，一直卡了一天多，才差不多搞懂，才对那个函数中的plotTree.xOff的取值，以及计算cntrPt的方法搞懂，相信也有人和我一样，希望能够相互交流。先把代码贴在这里：import matplotlib.pypl

2016-10-09 21:56:58 5591 1

转载协方差矩阵

1. 协方差定义X、Y 是两个随机变量，X、Y 的协方差 cov(X, Y) 定义为：其中：、2. 协方差矩阵定义矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的，这里默认数据是按行排列。即每一行是一个observation(or sample)，那么每一列就是一个随机变量。协方差矩阵：

2016-10-09 11:11:18 850

TaoTaoFu的博客

转载 C4.5分类树

转载机器学习-逻辑回归-参数迭代公式推导

转载机器学习算法中如何选取超参数：学习速率、正则项系数、minibatch size

转载 logistic回归模型【求解参数方法汇总】

转载机器学习之神经网络模型-下（Neural Networks: Representation）

转载机器学习之神经网络模型-上（Neural Networks: Representation）

转载机器学习之逻辑回归（Logistic Regression）

转载机器学习之多变量线性回归（Linear Regression with multiple variables）

转载机器学习之多变量线性回归（Linear Regression with multiple variables）

转载机器学习之单变量线性回归（Linear Regression with One Variable）

转载 Introduction to Machine Learning

转载机器学习之正则化（Regularization）

转载数据的离散化处理

转载 Logistic回归原理【似然函数与梯度选择】

转载梯度下降与梯度上升

转载 python实现决策树C4.5算法(ID3基础上改进)

转载决策树【C4.5算法】

原创 JDBC 练习

转载 Java JDBC批处理插入数据操作

转载朴素贝叶斯算法【变量连续与间断的讨论】

转载朴素贝叶斯算法

转载 Weka标签在java中的变量表示

转载 Java中调用Weka中的Apriori算法

转载 Eclipse中使用Weka

转载 Eclipse 插件开发

转载决策树的绘制

转载协方差矩阵

统计学习方法

空空如也