关闭

利用Apriori算法进行关联分析

1. Apriori算法Apriori算法是一种挖掘关联规则的频繁项集算法,这些关系有两种形式 : 频繁项集和关联规则。 举个例子就知道了:著名的”尿布与啤酒”。 这就是通过关联分析来获取到的结果。2. 名词解释前后文中存在的名词都放在这里了 1. 频繁项集 : 在事件集合中出现频繁的项目 2. 关联规则 : 尿布-啤酒 关联等等 说明有很大的几率同时出现 3. 支持度:该项出现的次...
阅读(93) 评论(0)

利用AdaBoost元算法提高分类性能

1. 元算法介绍 做重要决定时,大家可能会考虑多个权威的意见而不是一个人的意见,机器学习中也是如此,这就是元算法的背后思想。元算法是对其他算法组合的一种方式。 优点:泛化错误低,易编码,可以用在大部分分类器上,无参数调整问题 缺点:对离群点敏感 2. AdaBoost思想 以及 涉及公式2.1 简单理解AdaBoost是adaptive boosting(自适应boosting)的缩写,是利用弱分类...
阅读(204) 评论(0)

神经网络NN简单理解以及算法

1.什么是神经网络1.1 背景 : 以人脑中的神经网络为启发,历史上出现过很多不同版本 最著名的算法是1980年的 backpropagation 1.2 多层向前神经网络(Multilayer Feed-Forward Neural Network) Backpropagation被使用在多层向前神经网络上 多层向前神经网络由以下部分组成: 输入层(input layer), 隐藏层 (hid...
阅读(49) 评论(0)

支持向量机(SVM)理解以及在sklearn库中的简单应用

1. 什么是支持向量机 英文Support Vector Machines,简写SVM . 主要是基于支持向量来命名的,什么是支持向量后面会讲到…….最简单的SVM是用来二分类的,在深度学习崛起之前被誉为最好的现成分类器,”现成”指的是数据处理好,SVM可以直接拿来使用 … 2. 名词解释2.1线性(不)可分 , 超平面 上图 线性可分(绿色荧光笔直线),即一条直线完美分类,虽然有不同的分割法,...
阅读(1038) 评论(4)

树回归问题

1. 树回归基于之前的线性回归,树回归归根结底也是回归,但不同的是,树回归可以更好的处理多特征的非线性回归问题,其基本思想就是切分数据集,切分至易拟合的数据集后进行线性回归建模。(复杂数据的局部建模)1.1回归树 节点为数值型/标称型 模型树 节点为线性模型2.优缺点优点: 可以对复杂的非线性数据建模 缺点: 结果不易理解,抽象化3.伪代码''' 部分核心代码伪代码1.建树creatTree...
阅读(158) 评论(0)

回归算法之岭回归

1. 岭回归 首先,说一下岭回归名字的由来,w^=(XTX+λI)−1⋅XTy\hat{w} = (X^TX + \lambda I)^{-1}·X^Ty,其中,I 是单位矩阵(对角线全是1,像”山岭“),λ\lambda 是岭系数(顾名思义…改变其数值可以改变单位矩阵对角线的值) 其次,岭回归是基于最小二乘法 w^=(XTX)−1⋅XTy\hat{w} = (X^TX)^{-1}·X^Ty...
阅读(128) 评论(0)

线性回归以及局部加权回归

0回归的含义 1线性回归 1-1 数学公式 1-2 误差以及公式最小二乘法 1-3 伪代码 1-4 代码 见下文2-4 1-5 图像以及结果 1-6 优缺点与改进 2 局部加权回归 2-1 数学公式 图像 以及 思想 2-2 伪代码 2-3 代码 包含本文所有代码 2-4 图像 附 测试数据 0.回归的含义回归 英文:regress 用了倒推的含义,利用了数学的归纳思想,...
阅读(123) 评论(0)

朴素贝叶斯算法

1.朴素贝叶斯算法优缺点 优点:在数据较少的情况下依然有效,可以处理多类别问题 缺点:对输入数据的准备方式敏感 适用数据类型:标称型数据 2.算法思想:     比如我们想判断一个邮件是不是垃圾邮件,那么我们知道的是这个邮件中的词的分布,那么我们还要知道:垃圾邮件中某些词的出现是多少,就可以利用贝叶斯定理得到。   朴素贝叶斯分类器中的一个假设是:每个特征同等重要 3.算法伪代码计算每个类别中的文档...
阅读(206) 评论(0)

额.....机器学习初步认知(2017.5)

应该是好久没有更新blog了     所以懒惰是不是好东西啊!!! --------------话不多说  言归正传---------------- AI,也就是人工智能,并不仅仅包括机器学习 其实机器学习并不是多简单的  其中有大量的数学公式 统计学 等等 .... 所以学习方法很重要  不然会有很大的困难 学习目标 学习方针 学习计划 主要是有下面的过程导图...
阅读(100) 评论(0)

层次聚类算法

-*- coding:utf-8 * import numpy def getMax(x, y): if x > y: return x else: return y def getMin(x, y): if x > y: return y else: return x def...
阅读(128) 评论(0)

logistics回归--梯度上升算法以及改进--用于二分类

1.sigmoid函数应用 logistics回归是用来分类的,并且属于监督学习,分类也是仅限于二分类,就是结果非0即1 (这种函数通常称作跃阶函数) 这个时候就出现问题了 01之间的分界点怎么处理? 引入sigmoid函数 图像见下图 2.算法中的数学思想举个引例:求 函数y = -x^2+3x+1 的最大值 很简单 求得导数 y’ = -2x+3 当且仅当x=1.5时函数y取得最大值 然而...
阅读(175) 评论(0)

Kmeans以及优化的二分Kmeans

利用kmeans算法进行非监督分类1.聚类与kmeans 引例:2004美国普选布什51.52% 克里48.48% 实际上,如果加以妥善引导,那么一有小部分人就会转换立场,那么如何找到这一小部分人以及如何在有限预算采取措施吸引他们呢?答案就是聚类(<>第十章) kmeans,k均值算法,属于聚类算法中的一种,属于非监督学习。 聚类中的一个重要的知识就是”簇”,简单说簇就是相似数据的集...
阅读(156) 评论(0)

python-手写knn(k Nearest Neighbor) k近邻算法

先上代码 !!! # -*- coding:utf-8 -*- import csv import random import math import operator # 文件名 分割比例 训练集 测试集 def loadDate(fileName, split, trainSet=[], testSet=[]): with open(fileName, 'rb') as...
阅读(173) 评论(0)

python中文件基本操作

是不是处理数据的时候有点忘记打开模式了呢? 先上最全打开模式~~~ 不同模式打开文件的完全列表: r 以只读方式打开文件。文件的指针将会放在文件的开头。这是默认模式。 rb 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。 r+ 打开一个文件用于读写。文件指针将会放在文件的开头。 rb+ 以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。...
阅读(141) 评论(0)

基于python的sklearn库的决策树算法基本实现

不能再咸鱼了不能再被嘲笑了所以周末做各种总结下周新计划开始!!!立完flag正文开始基于python的sklearn库的决策树算法基本实现关于不同年龄等几个特征的人进行是否购买电脑的预测 导入的训练文件见Github先贴代码 ~_~# -*- coding:utf-8 -*-""" fit()可以说是调用的通用方法 fit(X),表示用数据X来训练某种模型。 函数返回值一般为调用fit方法的对象本...
阅读(136) 评论(0)
19条 共2页1 2 下一页 尾页
    个人资料
    • 访问:25723次
    • 积分:1422
    • 等级:
    • 排名:千里之外
    • 原创:111篇
    • 转载:2篇
    • 译文:0篇
    • 评论:4条
    博客专栏