机器学习
唐生一
The matrix
展开
-
Python 中各种imread函数的区别与联系
Python 中各种imread函数的区别与联系先来看看常用的读取图片的方式:PIL.Image.openscipy.misc.imreadscipy.ndimage.imreadcv2.imreadmatplotlib.image.imreadskimgecaffe.io.load_iamge这些方法可以分为四大家族PILPIL.Image.open + numpyscipy.misc.imreadscipy.ndimage.imread这些方法都是通过调用PIL.Image.转载 2020-06-28 17:59:46 · 538 阅读 · 0 评论 -
cross validation:交叉验证
def crossValidation(xArr,yArr,numVal = 10): """numVal:交叉验证的次数""" m = len(yArr) indexList = range(m) errorMat = np.zeros((numVal,30)) for i in range(numVal): trainX = [] trainY = [] testX = [] testY = []原创 2020-06-19 17:05:40 · 201 阅读 · 0 评论 -
【机器学习-吴恩达】SVM
1 介绍上图中有A,B,C三个点,直线两边对应着不同的分类。C和直线距离很近,只要我们的直线稍稍偏转一点角度,那么C的类别就会改变,相对于C,我们能更自信地给它归类到X类。我们期待找到这样一条直线,是我们都能自信地为所有的点进行分类。使用假设函数h(x)=g(W.T*X+b)来实现我们的SVM分类器。(在我们的逻辑回归中,g(Z)使用的是sigmoid函数)2 函数间隔和几何间隔函数间隔(functional margin)定义一个实例的函数间隔。这里需要注意到一个事实,对于我们的假原创 2020-06-10 10:06:31 · 205 阅读 · 0 评论 -
【机器学习实战-1章】运行本书代码时出现的错误集合
Numpy数组相关错误from numpy.ma import expTypeError:only size-1 arrays can be converted to Python scalars1)def sigmoid(self,inX):return 1.0/(1+exp(-inX))numpy数组最好使用Numpy的数学函数进行处理def sigmoid(self,inX):return 1.0/(1+numpy.exp(-inX))2)D = np.mat(np.ones((m原创 2020-06-07 17:06:45 · 3130 阅读 · 0 评论 -
【机器学习实战-2章】KNN算法
KNN:对于要预测的点,将其放到数据集中去,距这个点最近的K个点的类别是已知的,要预测点的类别就是这K个类别中占比例最大的类别。原创 2020-06-07 17:02:14 · 266 阅读 · 0 评论 -
【机器学习实战-3章】决策树
树形结构的分类,故称为决策树原创 2020-06-07 16:56:40 · 702 阅读 · 0 评论 -
【机器学习实战-5章】逻辑回归
这一章我们将首次接触到最优化算法。如何投入最少的工作量获得做大的效益,最短时间从A到B假设现在有一些数据点,用一条直线进行拟合,这个过程就叫回归。假设直线y=Ax+b(参数中的A,b就是我们要通过学习得到的值)原创 2020-06-07 16:44:18 · 495 阅读 · 1 评论 -
【机器学习实战-4章】贝叶斯
分类器有时会产生错误结果,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值原创 2020-06-07 16:09:44 · 870 阅读 · 0 评论 -
【机器学习实战-6章】SVM支持向量机
代码有重复SVM可以将低维数据映射到高维空间进行解决问题原创 2020-06-07 15:58:10 · 637 阅读 · 0 评论 -
【机器学习实战-7章】利用AdaBoost元算法提高分类性能
利用AdaBoost(adaptive boosting)元算法提高分类性能当做重要决定时,大家可能都会考虑吸取多个专家而不只是一个人的意见。机器学习处理问题时又何尝不是如此?这就是元算法(meta-algorithm)背后的思路。**元算法是对其他算法进行组合的一种方式。**原创 2020-06-07 15:31:28 · 686 阅读 · 0 评论 -
【机器学习实战-8章】回归
1. 线性回归优缺点: 优点:结果易于理解,计算上不复杂 缺点:对非线性数据拟合不好2. 回归的目的是预测数值型的目标值。 最直接的方法是依据输入写出一个目标值的计算公式。这就是所谓的回归方程(regression equation).方程中的常数为回归系数,求这些系数的过程就是回归。(注意区分logistic回归与本章的回归的区别)原创 2020-06-07 15:23:01 · 536 阅读 · 0 评论 -
【机器学习实战-9章】树回归
1. 线性回归创建模型时需要拟合所有的样本,当数据拥有众多特征并且特征之间关系十分复杂时,使用简单的回归模型就显得笨拙了。 2. 针对非线性问题,一种可行的方法是将数据集切分成很多份易建模的数据,然后使用线性回归。如果首次切分后仍难以拟合线性模型就继续切分。原创 2020-06-07 15:07:15 · 305 阅读 · 0 评论 -
【机器学习实战-10章】利用K-均值聚类算法对未标注数据分组
聚类与分类最大的不同在于,分类的目标实现已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义。聚类分析试图将相似对象归入同一簇,将不相似对象归到不同簇。相似这一概念取决于所选择的相似度计算方法。原创 2020-06-07 14:54:32 · 478 阅读 · 0 评论 -
【机器学习实战-15章】大数据与MapReduce
MapReduce:分布式计算的框架优点:可以在短时间内完成大量工作缺点:算法必须经过重写,需要对系统工程有一定的理解原创 2020-06-07 14:46:15 · 362 阅读 · 0 评论 -
【机器学习实战-14章】利用SVD简化数据
SVD是一种强大的降维工具,我们可以利用SVD来逼近矩阵并从中提取重要特征。通过保留矩阵80%-90%的能量,就可以得到重要的特征并去掉噪声。原创 2020-06-06 16:44:36 · 387 阅读 · 0 评论 -
【机器学习实战-13章】利用PCA来简化数据
什么是降维?对于电视上的一场足球比赛,在显示器上是百万像素;如果我们想要找到球的位置,人们实时地将显示器上的百万像素转换成了一个三维图像,也就是球的位置。这个过程,人们已经将数据从一百万维降至三维。数据是接受的原始材料,其中可能包含噪声和不相关信息。信息是指数据中的相关部分。原创 2020-06-06 10:12:43 · 398 阅读 · 0 评论 -
【机器学习实战-12章】使用FP-growth算法来高效发现频繁项集
代码在python3上已正常运行使用搜索引擎时会自动补全。他们通过查看互联网上的用词来找出经常在一块出现的词对。这需要一种高效发现频繁集的方法。FP-growth算法基于Apriori算法构建,将数据集存储在一个特定的称作FP树的结构之后发现频繁项集或者频繁项对,即常在一块出现的元素项的集合FP树。FP-growth发现频繁项集的基本过程如下:1).构建FP树2).从FP树中挖掘频繁项集原创 2020-06-05 21:44:32 · 777 阅读 · 0 评论 -
【机器学习实战-11章】使用Apriori算法进行关联分析
使用Apriori算法进行关联分析从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)11.1 关联分析优缺点优点:易编码实现缺点:在大数据集上可能较慢概念关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系可以有两种形式:频繁项集或者关联规则。频繁项集(frequent item sets):经常出现在一块的物品的集合关联规则:暗示两种物品之间可能存在很强的关系支持度(support):定义为数据集中包含该项集的记录所占的比例。原创 2020-06-04 16:16:03 · 984 阅读 · 2 评论