自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Apriori进行关联分析

算法概述优点:易编码实现缺点:在大数据集下可能较慢适用数据类型:数值型或标称型数据在大规模数据集中寻找物品间的隐含关系被称为关联分析我们的目标就是找到经常在一起出现的频繁子集。我们用大括号“{}”来表示集合。为了表示某个子集是否是频繁子集,我们需要用一些量化方法,光计数也不行,因为不同量的交易数据出现的次数差别很大,一般用支持度(support)和置信度(confident)这两个指标来...

2019-12-21 19:41:27 146

原创 K均值聚类

算法概述优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据伪代码:创建k个点作为起始质心(经常是随机选择)当任意一个点的簇分配结果发生改变时 对数据集中的每个数据点 对每个质心 计算质心与数据点之间的距离 将数据点分配到距其最近的簇 对每一个簇,计算簇中所有点的均值并将均值作...

2019-12-21 19:28:54 164

原创 回归问题

$$

2019-12-21 18:23:50 249

原创 adaboost

算法概述优点:繁华错误率低,易编码,可以应用在大部分分类器上,无参数调整缺点:对离群点敏感适用数据类型:数值型和标称型bagging自举汇聚法,是在从原始数据集选择S次后得到S个数据集的一种技术。新数据集和原数据集的大小相等每个数据集都是通过在原始数据集中随机选择样本来进行替换而得到的S个数据集建好之后,将某个学习算法分别作用于每个数据集就得到S个分类器选择分类器投票结果中最多的...

2019-12-07 22:59:28 237

原创 支持向量机

算法概述如果两组数据之间已经分隔的足够开,因此很容易就能画出一条直线将两组数据点分开,在这种情况下,这组数据称为线性可分数据。上述将数据集分开的直线称为分隔超平面(也就是分类的决策边界)如果数据点离决策边界越远,那么最后的预测结果也就越可信我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。这里点到分隔面的距离被称为-----------间隔一般的数据是线性不可分的,也就是...

2019-11-30 22:36:50 229

原创 logistic回归

算法概述假设有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合曲线),这个拟合过程就称作回归。主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。这里的“回归”一词源于最佳拟合,表示要找到最佳拟合参数集。优点:计算代价不高,易于理解和实现缺点:容易欠拟合,分类精度可能不高适用数据类型:数值型和标称型一般过程1.收集数据:采用任意方法收集数据2.准备数据:由于需...

2019-11-23 21:37:03 128

原创 朴素贝叶斯

朴素贝叶斯概论优点:在数据较小的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感使用数据类型:标称型数据工作原理朴素贝叶斯是贝叶斯决策理论的一部分,我们会选择高概率对应的类别,这是贝叶斯决策论的核心思想,即选择具有最高概率的决策贝叶斯准则:p(c|x)=p(x|c)p©/p(x)使用条件概率来分类如果p1(x,y)>p2(x,y),那么属于类别1如果p...

2019-11-23 19:05:38 100

原创 决策树

算法原理决策树模型是一种描述对实例进行分类的树形结构。其由结点(node)和有向边(directed edge)组成。结点有两种类型:内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性(features),叶结点表示一个类(labels)。用决策树对需要测试的实例进行分类:从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;...

2019-11-16 22:52:11 96

原创 k-近邻算法

k-近邻算法概述简单地说,k-近邻算法采用测量不同特征值之间的距离方式进行分类。优点:精度高,对异常值不敏感,无数据输入假定缺点:计算复杂度高,空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个样本数据集合(样本训练集),并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然...

2019-11-16 22:23:34 120

原创 算法刻意练习12

模块模块就是程序(更高级的封装)命名空间1.内置命名空间(Built-in Namespaces):内置函数的命名空间都属于内置命名空间,所以,我们可以在任何程序中直接运行它们2.全局命名空间(Module:Global Namespaces):每个模块创建它自己所拥有的全局命名空间,不同模块的全局命名空间彼此独立,不同模块中相同名称的命名空间,也会因为模块的不同而不相互干扰。3.本地命...

2019-11-05 22:37:33 103

原创 算法刻意练习11

魔方方法魔法方法总是被双下划线包围;魔法方法的第一个参数应为cls(类方法) 或者self(实例方法)。cls:代表一个类的名称self:代表一个实例对象的名称基本的魔方方法1.__init__(self[, ...])构造器,当一个实例被创建的时候调用的初始化方法2.__new__(cls[, ...])__new__ 是在一个对象实例化的时候所调用的第一个方法,在调用 ini...

2019-11-04 22:59:06 133

原创 算法刻意练习10

对象类类是抽象的模板;1.定义类是通过class关键字2.类名通常是大写开头的单词,紧接着是(object),表示该类是从哪个类继承下来的ps:和普通的函数相比,在类中定义的函数只有一点不同,就是第一个参数永远是实例变量self,并且,调用时,不用传递该参数实例实例是根据类创建出来的一个个具体的“对象”,每个对象都拥有相同的方法,但各自的数据可能不同;1.创建实例是通过类名+()实...

2019-11-02 23:59:18 136

原创 算法刻意练习9

else语句1.while … else 语句2.for … else 语句for 中的语句和普通的没有区别,else 中的语句会在循环正常执行完(的情况下执行,while … else 也是一样3.try …. except … else 语句with语句关键词 with 语句就可以保证诸如文件之类的对象在使用完之后一定会正确的执行它的清理方法。在单独使用open函数打开文件时,我...

2019-10-31 15:26:53 83

原创 算法刻意练习8

异常处理在程序运行的过程中,如果发生了错误,可以事先约定返回一个错误代码,这样,就可以知道是否有错,以及出错的原因try...except...finally...的错误处理机制首先,执行try子句(在关键字try和关键字except之间的语句)如果没有异常发生,忽略except子句,try子句执行后结束。如果在执行try子句的过程中发生了异常,那么try子句余下的部分将被忽略。如果异常...

2019-10-30 23:10:03 144

原创 算法刻意练习7

文件

2019-10-29 22:31:26 119

原创 算法刻意练习6

字典1.使用键-值(key-value)存储,具有极快的查找速度在list中查找元素的方法,list越大,查找越慢2.先在字典的索引表里(比如部首表)查这个字对应的页码,然后直接翻到该页,找到这个字。无论找哪个字,这种查找速度都非常快,不会随着字典大小的增加而变慢。ps:字典是 Python 唯一的一个 映射类型,字符串、元组、列表属于序列类型把数据放入dict的方法,除了初始化时指定外...

2019-10-27 22:29:40 187

原创 算法刻意练习5

函数函数的定义函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。函数参数Python 的函数具有非常灵活多样的参数形态,既可以实现简单的调用,又可以传入非常复杂的参数。从简到繁的参数形态如下:1.位置参数arg1 - 位置参数 ,这些参数在调...

2019-10-26 22:05:58 138

原创 算法刻意练习4

字符串字符串也是一种数据类型对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符Python对bytes类型的数据用带b前缀的单引号或双引号表示以Unicode表示的str通过encode()方法可以编码为指定的bytes要把bytes变为str,就需要用decode()方法ps:由于Python源代码也是一个文本文件,所以,当你...

2019-10-24 22:19:31 134

原创 算法刻意练习3

列表list是一种有序的集合,可以随时添加和删除其中的元素。ps:索引是从0开始的如果要取最后一个元素,除了计算索引位置外,还可以用-1做索引,直接获取最后一个元素添加元素append()追加元素到末尾extend()是扩展,把一个东西里的所有元素添加在列表后insert(index, obj)在编号 index 位置前插入 obj删除元素remove(obj) 移除列表中某个值...

2019-10-22 23:13:08 122

原创 算法刻意练习2

条件与循环

2019-10-21 21:58:36 138

原创 算法刻意练习1

变量变量名必须是大小写英文、数字和_的组合,且不能用数字开头在使用变量之前,需要对其先赋值Python 变量名是大小写敏感的,foo != Foo运算符//称为地板除,两个整数的除法仍然是整数 //除法只取结果的整数部分 **幂运算ps: 一元运算符高于二元运算符。先乘除后加减,有括号先括号内。比较运算符高于逻辑运算符。数据类型1.整数Python可以处理任意大小的整数,当然...

2019-10-21 18:58:25 112

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除