机器学习实战
文章平均质量分 70
新手,记录自己的成长以及供大家阅读批评分享
_Magic
停更,恢复时间未知
展开
-
利用Apriori算法进行关联分析
1. Apriori算法Apriori算法是一种挖掘关联规则的频繁项集算法,这些关系有两种形式 : 频繁项集和关联规则。 举个例子就知道了:著名的”尿布与啤酒”。 这就是通过关联分析来获取到的结果。2. 名词解释前后文中存在的名词都放在这里了 1. 频繁项集 : 在事件集合中出现频繁的项目 2. 关联规则 : 尿布-啤酒 关联等等 说明有很大的几率同时出现 3. 支持度:该项出现的次原创 2017-08-19 15:45:29 · 1197 阅读 · 0 评论 -
利用AdaBoost元算法提高分类性能
1. 元算法介绍做重要决定时,大家可能会考虑多个权威的意见而不是一个人的意见,机器学习中也是如此,这就是元算法的背后思想。元算法是对其他算法组合的一种方式。优点:泛化错误低,易编码,可以用在大部分分类器上,无参数调整问题缺点:对离群点敏感2. AdaBoost思想 以及 涉及公式2.1 简单理解AdaBoost是adaptive boosting(自适应boosting)的缩写,是利用弱分类原创 2017-08-17 16:43:25 · 1300 阅读 · 0 评论 -
神经网络NN简单理解以及算法
1.什么是神经网络1.1 背景 :以人脑中的神经网络为启发,历史上出现过很多不同版本最著名的算法是1980年的 backpropagation 1.2 多层向前神经网络(Multilayer Feed-Forward Neural Network)Backpropagation被使用在多层向前神经网络上多层向前神经网络由以下部分组成: 输入层(input layer), 隐藏层 (hid原创 2017-08-15 16:07:42 · 5831 阅读 · 4 评论 -
python-手写knn(k Nearest Neighbor) k近邻算法
先上代码!!!# -*- coding:utf-8 -*-import csvimport randomimport mathimport operator# 文件名 分割比例 训练集 测试集def loadDate(fileName, split, trainSet=[], testSet=[]): with open(fileName, 'rb') as原创 2017-06-19 22:22:15 · 1376 阅读 · 0 评论 -
Kmeans以及优化的二分Kmeans
利用kmeans算法进行非监督分类1.聚类与kmeans引例:2004美国普选布什51.52% 克里48.48% 实际上,如果加以妥善引导,那么一有小部分人就会转换立场,那么如何找到这一小部分人以及如何在有限预算采取措施吸引他们呢?答案就是聚类(<<机器学习实战>>第十章)kmeans,k均值算法,属于聚类算法中的一种,属于非监督学习。聚类中的一个重要的知识就是”簇”,简单说簇就是相似数据的集原创 2017-07-27 21:52:37 · 1854 阅读 · 1 评论 -
logistics回归--梯度上升算法以及改进--用于二分类
1.sigmoid函数应用logistics回归是用来分类的,并且属于监督学习,分类也是仅限于二分类,就是结果非0即1 (这种函数通常称作跃阶函数)这个时候就出现问题了 01之间的分界点怎么处理?引入sigmoid函数 图像见下图2.算法中的数学思想举个引例:求 函数y = -x^2+3x+1 的最大值 很简单 求得导数 y’ = -2x+3 当且仅当x=1.5时函数y取得最大值 然而原创 2017-07-30 22:15:32 · 1446 阅读 · 0 评论 -
层次聚类算法
-*- coding:utf-8 *import numpydef getMax(x, y): if x > y: return x else: return ydef getMin(x, y): if x > y: return y else: return xdef原创 2017-07-30 23:01:53 · 671 阅读 · 0 评论 -
支持向量机(SVM)理解以及在sklearn库中的简单应用
1. 什么是支持向量机英文Support Vector Machines,简写SVM . 主要是基于支持向量来命名的,什么是支持向量后面会讲到…….最简单的SVM是用来二分类的,在深度学习崛起之前被誉为最好的现成分类器,”现成”指的是数据处理好,SVM可以直接拿来使用 …2. 名词解释2.1线性(不)可分 , 超平面 上图 线性可分(绿色荧光笔直线),即一条直线完美分类,虽然有不同的分割法,原创 2017-08-12 12:12:43 · 4605 阅读 · 4 评论 -
朴素贝叶斯算法
1.朴素贝叶斯算法优缺点优点:在数据较少的情况下依然有效,可以处理多类别问题缺点:对输入数据的准备方式敏感适用数据类型:标称型数据2.算法思想: 比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的是这个邮件中的词的分布,那么我们还要知道:垃圾邮件中某些词的出现是多少,就可以利用贝叶斯定理得到。 朴素贝叶斯分类器中的一个假设是:每个特征同等重要3.算法伪代码计算每个类别中的文档原创 2017-07-31 22:08:06 · 877 阅读 · 0 评论 -
线性回归以及局部加权回归
0回归的含义 1线性回归1-1 数学公式1-2 误差以及公式最小二乘法 1-3 伪代码 1-4 代码 见下文2-4 1-5 图像以及结果 1-6 优缺点与改进 2 局部加权回归 2-1 数学公式 图像 以及 思想 2-2 伪代码 2-3 代码 包含本文所有代码 2-4 图像 附 测试数据 0.回归的含义回归 英文:regress 用了倒推的含义,利用了数学的归纳思想,原创 2017-08-02 18:20:56 · 3763 阅读 · 0 评论 -
回归算法之岭回归
1. 岭回归首先,说一下岭回归名字的由来,w^=(XTX+λI)−1⋅XTy\hat{w} = (X^TX + \lambda I)^{-1}·X^Ty,其中,I 是单位矩阵(对角线全是1,像”山岭“),λ\lambda 是岭系数(顾名思义…改变其数值可以改变单位矩阵对角线的值)其次,岭回归是基于最小二乘法 w^=(XTX)−1⋅XTy\hat{w} = (X^TX)^{-1}·X^Ty原创 2017-08-06 20:04:15 · 7611 阅读 · 0 评论 -
树回归问题
1. 树回归基于之前的线性回归,树回归归根结底也是回归,但不同的是,树回归可以更好的处理多特征的非线性回归问题,其基本思想就是切分数据集,切分至易拟合的数据集后进行线性回归建模。(复杂数据的局部建模)1.1回归树 节点为数值型/标称型 模型树 节点为线性模型2.优缺点优点: 可以对复杂的非线性数据建模 缺点: 结果不易理解,抽象化3.伪代码'''部分核心代码伪代码1.建树creatTree原创 2017-08-10 16:03:01 · 754 阅读 · 0 评论 -
基于python的sklearn库的决策树算法基本实现
不能再咸鱼了不能再被嘲笑了所以周末做各种总结下周新计划开始!!!立完flag正文开始基于python的sklearn库的决策树算法基本实现关于不同年龄等几个特征的人进行是否购买电脑的预测 导入的训练文件见Github先贴代码 ~_~# -*- coding:utf-8 -*-"""fit()可以说是调用的通用方法fit(X),表示用数据X来训练某种模型。 函数返回值一般为调用fit方法的对象本原创 2017-06-18 18:40:19 · 1884 阅读 · 1 评论