dengzhang2630-CSDN博客

转载机器学习实战第11章——使用 Apriori 算法进行关联分析

从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。优点：简单缺点：对大数据集比较慢使用数据类型：数值型或者标称型一、相关定义：频繁项集：经常出现在一起的物品集合关联规则：两种物品之间存在很强的关系，表示为P->Hsupport支...

2018-11-22 19:10:00 286

转载机器学习实战第10章_无监督学习_k-means聚类

终于进入无监督学习的部分了，首先介绍k-means聚类和二分k-means聚类1. k-means聚类k-means聚类将相似的对象归到同一个簇中，每个簇的中心采用簇中所含值的均值计算而成。优点：容易实现缺点：可能收敛到局部最小值，在大规模数据上收敛较慢适用数据类型：数值型数据伪代码：创建k个点作为起始质心（随机选择）当任意一个点的簇分配结果发生改变时...

2018-09-19 14:10:00 290

转载机器学习实战第9章-树回归

CART(classificatiion and regression trees)分类回归树CART既能用于分类，也能用于回归CART是二叉树CART算法由决策树的生成和决策树的剪枝两步组成。1 CART生成1.1回归树回归树采用平方误差最小化准则，分类树采用基尼指数最小化准则，进行特征选择，生成二叉树。　　　　1.2 分类树分类树采...

2018-09-13 21:16:00 198

转载机器学习实战第8章预测数值型数据：回归2

1.Shrinkage（缩减） Methods当特征比样本点还多时（n>m），输入的数据矩阵X不是满秩矩阵，在求解(XTX)-1时会出现错误。接下来主要介绍岭回归（ridge regression）和前向逐步回归（Foward Stagewise Regression）两种方法。1.1岭回归（ridge regression）简单来说，岭回归就是在矩阵XTX上加上一...

2018-08-26 16:44:00 277

转载机器学习实战第8章预测数值型数据：回归

1.简单的线性回归假定输入数据存放在矩阵X中，而回归系数存放在向量W中，则对于给定的数据X1，预测结果将会是　　　　　　　　　　　　　　　　这里的向量都默认为列向量现在的问题是手里有一些x和对应的y数据，怎样才能找到W呢？一个常用的方法是找到使误差最小的W，这里的误差是指预测y值与真实y值之间的差值，使用该误差的简单累加将使得正差值和负差值相互抵消，所以我们采用平方误差。...

2018-08-23 23:14:00 268

转载机器学习实战第7章——利用AdaBoost元算法提高分类性能

将不同的分类器组合起来，这种组合结果被称为集成方法或元算法（meta-algorithm）。使用集成方法时会有多种形式：（1）可以是不同算法的集成（2）可以是同一种算法在不同设置下的集成（3）数据集不同部分分配给不同分类器之后的集成，等等接下来介绍基于同一种分类器多个不同实例的两种不同计算方法bagging和boosting1. bagging　　原理：从原始数据集选择S...

2018-08-20 00:33:00 156

转载 python时间 time和datetime总结

一、Time模块（1）time.time()输出当前时间戳# -*- coding: UTF-8 -*- import time; # 引入time模块 ticks = time.time()print "当前时间戳为:", ticks输出当前时间戳为: 1459994552.51（2）获取当前时间，时间元组的形式localtime(...

2018-08-13 23:59:00 78

转载机器学习第6章SVM

总结一下SVM的原理，主要参考了几位大牛的博客知乎，以及李航的《统计学习导论》SVM是一种二分类模型，它的基本模型是定义在特征空间上的间隔最大的线性分类器。主要分为线性可分SVM，线性SVM，非线性SVM。SVM主要目的是找到具有最大间隔的分隔超平面一、线性可分SVM　　如上图a所示是分为红、蓝两类的已有数据，图1(b)和(c)分别给出了A、B两种不同的分类方案，其中...

2018-08-12 11:43:00 548

转载 python读取CSV文件

这几天一直在写爬虫的代码，需要将爬取的数据保存到csv文件中，总结一下读写csv文件的几种方法 1.利用Python I/O读取文件def read_csv2(file_name): final_list = list() try: f = open(file_name, 'r') reader = csv.reade...

2018-08-08 15:48:00 116

转载机器学习实战第五章Logistic回归

def gradAscent(dataMatIn, classLabels): dataMatrix = mat(dataMatIn) #convert to NumPy matrix labelMat = mat(classLabels).transpose() #convert to NumPy matrix m,n = sh...

2018-08-04 23:18:00 148

转载 pyhton pandas库的学习

pandas两种主要的数据结构：Series和DataFrameSeries:类似于一维数组的对象，由一组数据以及一组与之相关的数据标签（即索引）组成。Series中的索引值可以重复DataFrame:一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型等），DataFrame即有行索引也有列索引，可以被看成是Series组成的字典1. Se...

2018-06-09 11:58:00 106

转载 pyhton numpy库的学习

1.Numpy核心数据结构：ndarrayndarray是由同一种类型的元素组成的N维数组1.1 ndarray的创建主要有以下几个函数进行创建：array()zeros()：全零数组ones()：全1数组empty()：创建未初始化的数组1.1.1通过array()创建(1)一维a = np.array([1,2,3,4])(2)二维b ...

2018-06-09 10:41:00 75

转载 ISLR第8章The Basics of Decision Trees

The Basics of Decision TreesIn this chapter, we describe tree-based methods for regression andclassification.These involve stratifying or segmenting the predictor spaceinto a number of sim...

2018-04-19 16:04:00 540

转载 ISLR第10章 Unsupervised Learning

Unsupervised learning, a set of statisticaltools intended for the setting in which we have only a set of featuresX1,X2, . . . , Xp measured on n observations. We are not interestedin prediction...

2018-03-25 21:56:00 248

转载吴恩达机器学习第5周Neural Networks（Cost Function and Backpropagation）

5.1 Cost Function假设训练样本为：{(x1),y(1)),(x(2),y(2)),...(x(m),y(m))}L = total no.of layers in networksL= no,of units(not counting bias unit) in layer LK = number of output units/classes如图所...

2018-03-21 22:09:00 87

转载 ISLR第9章SVM

In this chapter, we discuss the support vector machine (SVM), an approachfor classification that was developed in the computer science community inthe 1990s and that has grown in popularity since...

2018-03-15 14:52:00 350

转载 ISLR第六章Linear Model Selection and Regularization

本章主要介绍几种可替代普通最小二乘拟合的其他一些方法。Why might we want to use another fitting procedure instead of leastsquares?better predictionaccuracy（预测精度） and better model interpretability（模型解释力）.主要介绍三种方法：...

2018-03-06 18:35:00 819

转载 ISLR第五章Resampling Methods（重抽样方法）

Resampling methods are an indispensable tool in modern statistics.In this chapter, we discuss two of the most commonlyused resampling methods, cross-validation and the bootstrap.For example...

2018-03-06 16:12:00 462

转载 ISLR第二章

1 Statistical Learning1.1 What Is Statistical Learning?More generally, suppose that we observe a quantitative response Y and p different predictors, X1,X2, . . .,Xp. We assume that there is s...

2018-03-06 10:37:00 372

转载 ISLR第四章分类

1. 为什么线性回归不可用？通常，两个以上定性响应变量不能用线性回归建立模型线性模型不能保证预测值在0，1之间2. logistic regressiom2.1 logistic model　　logistic function:　　　　　　　　odds:　　　　　　取值范围为0 到∞。其值接近于0 表示违约概率非常低，接近于∞则表示...

2018-02-09 23:08:00 266

转载吴恩达机器学习第四周Neural Networks

Model RepresentationLogistic Unit：Sigmoid (logistic) activation function:Neural Network：神经网络，即一群有强相关性的神经元。神经网络包括输入层、隐藏层、输出层。其中隐藏层可能是一层，也可能包含多层。表示第j层的i个神经元，每个神经元都是单独的模型。比如第二层的第1个神经元...

2018-01-24 16:03:00 102

转载 ISLR第3章线性回归

简单线性回归方程式： 1.1 估计参数代表第i 个残差第i 个观测到的响应值和第i 个用线性模型预测出的响应值之间的差距残差平方和（residual sum of squares ,RSS）：等价于： ...

2018-01-19 18:01:00 330

转载吴恩达机器学习第三周：Logistic Regression逻辑回归

先来说说回归的思想吧：常见的回归就是通过一系列的点，计算得到一条线。当有新的输入时，可以直接计算得到输出。用最小二乘法求解线性回归方程就是我们最早接触到的回归。对于线的表示都不尽相同，如线性回归得到的预测函数是y=w⃗T∗x⃗+a，逻辑回归则是一条S型曲线。逻辑回归和线性回归（Linear Regression）的区别如下：普通线性回归主要用于连续变量的预测，即，线性...

2017-12-22 14:45:00 124

转载机器学习第二周编程作业

单变量线性回归：ex1.mplotData.mcomputerCost.mgradientDescent.m多变量线性回归：ex1_multi.mfeatureNormalize.mcomputerCostMulti.mgredientDescentMulti.mnormalEqn.mex1.m%% Machine Le...

2017-12-07 20:39:00 129