2018年07月_liff_lee

原创【python自学】（六）-----数据结构

目录列表元组字典序列参考列表可变的数据类型，list处理一组有序项目，每个项目之间使用逗号进行分割。列表中可以添加任何种类的对象包括数甚至其他列表。可以对列表中的元素进行增删查改以及排序等操作。# This is my shopping listshoplist = ['apple', 'mango', 'carrot', 'banana']print 'I...

2018-07-31 01:23:07 147

原创【python自学】（五）-----模块

定义重用模块，模块的文件名必须以.py为扩展名字节编译的.pyc文件创建字节编译文件 .pyc，可以使模块的输入变快（在别的程序中使用该模块）模块的__name__每个模块对应的名称属性# Filename: using_name.pyif __name__ == '__main__': print 'This program is being run by it...

2018-07-31 00:56:07 122

原创【python自学】（四）-----函数

定义函数def sayHello(): print 'Hello World!' # block belonging to the functionsayHello() # call the function函数形参函数中的参数局部变量def func(x): print 'x is', x x = 2 print 'Changed...

2018-07-31 00:40:13 178

原创【python自学】（三）-----控制流

if语句通常使用if-elif-elsewhile语句for循环通常用法是for i in range(1,5)：……；其中range(1,5)是序列[1, 2, 3, 4]，默认range的步长为1，若range(1,5,2)则表示步长为2，序列为[1,3]。break语句用于满足某一个条件结束循环continue语句使用continue语句可以忽略剩余的语句。...

2018-07-31 00:14:08 78

原创【python自学】（二）----运算符与表达式

运算符算术运算符：加（+）；减（-）；乘（*）；除（/）；幂（**）；取整除（//），返回商的整数部分；取模（%）；逻辑运算符：左移（<<）；右移（>>）；按位与（&）；按位或（|）；按位异或（^）；按位翻转（~）；比较运算符：小于（<）;大于（>）；小于等于（<=）；大于等于（>=）；等于（==）；不等于（!=）；布尔运算符...

2018-07-31 00:02:15 114

原创【python自学】（一）-----基本概念

常量数python中数有4种类型：整数长整数浮点数：例如52.3E-4表示52.3 * 10-4。复数：(-5+4j)字符串使用单引号（'）：所有的空白，空格和制表符都照原样保留。如 'Quote me on this'；使用双引号（"）：作用和使用单引号相同；使用三引号（'"）：可以指示一个多行的字符串。可以在三引号内自由使用单引号和双引号。例如：''...

2018-07-30 23:43:11 171

转载 python operator 模块介绍

operator.concat(a, b)operator.concat(a, b)对于 a、b序列，返回 a + b(列表合并）---------------------------------operator.countOf(a, b)返回 b 在 a 中出现的次数perator.delitem(a, b)operator.delitem(a, b)删除 a 中索...

2018-07-29 01:48:08 2525

转载 python sorted 函数

源：https://www.cnblogs.com/sysu-blackbear/p/3283993.html我们需要对List、Dict进行排序，Python提供了两个方法对给定的List L进行排序，方法1：用List的成员函数sort进行排序，在本地进行排序，不返回副本方法2：用built-in函数sorted进行排序（从2.4开始），返回副本，原始输入不变--------...

2018-07-29 01:40:40 144

原创数据挖掘十大经典算法（十）-----CART

简介CART(classification and regression tree)，分类回归树，是在ID3的基础上进行优化的决策树。是一棵二叉树，且每一个非叶结点都有两个孩子。当CART是分类树是，采用GINI值作为结点分裂的依据；当CART是回归树时，采用样本的最小方差作为结点分裂的依据。怎样从分支变量的众多取值中找到一个当前的最佳切割点（切割阈值）数值型变量：对记录值从小到大金星...

2018-07-27 15:50:18 434

原创数据挖掘十大经典算法（九）-----Naive Baye

简介朴素贝叶斯算法是机器学习中为数不多的基于概率的分类算法，多用于文本分类。贝叶斯分类的基础是概率推理，就是在各种条件的存在不确定，仅仅知道其出现概率的情况下，怎样完成推理和决策任务。概率推理是与确定性推理相应的。朴素贝叶斯分类器是基于独立如果的，即如果样本中每一个特征与其他特征都不相关；例如，如果一个水果具有红、圆、直径大概4英寸等特征，该水果判定为苹果。虽然这些特征相互依赖或者有些特征...

2018-07-26 23:24:08 586

原创机器学习---积极学习与消极学习

积极学习（eager learning）这种学习方式是指在进行某种判断之前，先利用训练数据进行训练得到一个目标函数，待需要时就只利用训练好的函数进行决策，显然是一种一劳永逸的方法；例如SVM；消极学习（lazy learning）这种学习方式不是根据样本建立一般化的目标函数并确定其参数，而是简单的将训练样本存储起来，直到需要分类新的实例时才分析其与存储的样例之间的关系，据此确定新实例的...

2018-07-26 23:15:56 4201

原创数据挖掘算法---bagging和boosting集成的区别

bagging和boosting代表两类集成学习算法；其中bagging是个体学习器之间不存在强依赖关系，可以同时生成的并行化方法。boosting适用于个体学习器之间存在强依赖关系，必须串行生成的序列化方法。区别1、样本选择上 bagging：训练集是在原始数据集中采用随机有放回的方式选取的，从原始数据集中选出的各轮训练集之间是相互独立的； boosting：每一轮的训练集不...

2018-07-25 23:41:49 1381

原创数据挖掘算法-----bagging集成----随机森林

bagging（bootstrap aggregating），套袋法，是一种集成学习算法，采用随机有放回的选择训练数据然后构造分类器，最后进行组合。例如随机森林。算法流程：从原始样本集中抽取训练集，每轮从原始样本集中使用bootstraping的方法抽取n个训练样本（在训练集中，有些样本可能被多次抽到，有些样本可能一次都没有被抽中），共进行k轮抽取，得到k个训练集。（训练集相互独立）每...

2018-07-25 23:28:16 3014

原创数据挖掘算法----Boosting

简介Boosting（提升法）是一类可以将弱分类器提升为强分类器的算法，其工作机制为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后续受到更多的关注，然后基于调整后的样本分布来训练下一个基学习器；如此重复，直到基学习器数目达到事先指定的值T，最终将这T个基学习器进行加权结合。算法的三要素：函数模型：Boosting函数模...

2018-07-25 00:51:53 690

原创数据挖掘十大经典算法（七）-----AdaBoost

简介AdaBoost是Boosting系列中的一种迭代算法。算法本身是通过改变数据分布实现的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分类的准确率来确定每个样本的权值，将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的分类器融合起来，作为最后的决策分类器。adaboost算法对boosting基本问题的调整：使用加权后选取的训练数据代替随机选取的训练样本...

2018-07-25 00:50:10 254

简介集成学习，通过将多个单个的学习器集成在一起，使它们共同完成学习任务，也被称为“多分类系统”。其思想是使用一些不同的方法改变原始训练样本的分布，从而构建多个不同的分类器，并将这些分类器线性组合得到一个更强大的分类器，来做最后的决策。集成模型是一种能在各种机器学习任务上提高准确率的强有力技术，集成算法往往是很关键的一步，能够很好提升算法的性能。单个分类器的分类可能会出错，但是多个分类器进行投票...

2018-07-25 00:49:50 1373

原创数据挖掘十大经典算法（六）-----PageRank

简介PageRank，网页排序；通过网络浩瀚的超链接关系来确定一个页面的等级。借鉴依靠文章的引用情况判断学术论文的质量的相关思想。网页排序的核心思想：（1）如果一个网页被很多其他网页链接到的话说明这个网页比较重要，也就是pageRank值会相对较高；（2）如果一个pagerank值很高的网页链接到一个其他的网页，那么链接到的网页的pageRank值会相应的因此提高；计算每个...

2018-07-23 22:01:54 719

原创数据挖掘十大经典算法（五）-----EM（未完整）

最大期望算法（Expectation Maxmiization）是在概率模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（latent variable）。经常用在机器学习和计算机视觉的数据集聚（data clustering）领域。算法经过两个步骤交替进行计算：（1）计算期望（E）；利用对隐藏变量的现有预计值，计算其最大似然预计值；（2）最大化（M）；最大化已经求得的最...

2018-07-23 10:32:33 134

原创数据挖掘十大经典算法（四）-----Apriori

简介Apriori算法是最有影响的挖掘布尔关联规则的频繁项集的算法。核心是基于两阶段（寻找频繁项集；由频繁项集寻找关联规则）频集思想的递推算法；该关联规则在分类上属于单维、单层、布尔关联规则。算法基本流程需对数据进行多步处理；首先，简单统计全部含有一个元素项集出现的频数，并找出那些不小于最小支持度的项集，即一维最大项集；然后进行一个循环（第K步中，依据K-1步生成的K-1维最大项集产生...

2018-07-22 22:24:12 1286

原创数据挖掘算法----关联规则

简介关联规则作为机器学习算法中的一个分类，其目的是在数据集中找出两个变量之间的关联关系，且这种相关关系在数据集中不能直观展现出来。关联规则的分类1、按处理的变量布尔型：买啤酒=>买尿布数值型：月收入5000元=>每月交通费8002、按资料的抽象层次单层关联规则：IBM台式机=>Sony打印机，一个细节数据上的单层关联规则；多层关联规则：台式机=&g...

2018-07-22 22:03:48 2914

原创数据挖掘十大经典算法（三）-----SVM未完整

SVM，support vector machines,支持向量机。一种监督式学习方法，广泛用于统计分类与回归分析中。支持向量机将向量映射到一个更高维的空间中，在这个空间里建立一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面，分隔超平面使两个平行超平面的距离最大化。平行超平面间的距离或者间距越大，分类器的总误差越小。SVM的主要思想概括为两点：（1）针对线性可分情况进行...

2018-07-22 17:48:22 226

原创数据挖掘十大经典算法（二）---K-Means

简介K-Means是一种常用的非监督式聚类算法，其中k代表聚类的类别数量，means代表均值。是基于划分的聚类算法，对象之间的相似度使用距离来衡量。算法步骤：1）选取k个数据作为初始聚类中心（可以随机选取也可以指定）；2）对其余数据计算与k个聚类中心的距离，并归类在距离最小的聚类中心所代表的类中；3）重新计算每个类簇的中心，（计算每个类簇中对象的均值）；4）计算准则函数，重...

2018-07-22 00:47:05 2857

原创数据挖掘算法-----聚类算法

什么是聚类？聚类是发现数据集中数据之间的相关关系，对数据进行分组，组内的相似性越大，组间的差别越大，则聚类的效果越好。聚类和分类的区别聚类技术属于机器学习中的无监督学习，与监督学习不同，聚类中没有数据类别的分类或者分组信息。聚类并不关心某一类别的信息，其目标是将相似的样本聚在一起。因此，聚类算法只需要知道如何计算样本之间的相似性，就可以对数据进行聚类。聚类中不同簇的类型：聚类目标是...

2018-07-21 23:28:27 7252

原创数据挖掘十大经典算法（一）----C4.5

C4.5分类决策算法是对核心算法ID3的改进，体现在以下几个方面：（1）使用信息增益率来选择属性，克服了使用信息增益来选择属性时偏向选择取值多的属性的不足；（2）在树的构造过程中进行剪枝；（3）可以完善对连续属性的离散化处理；（4）可以对不完整数据进行处理。优点：产生的分类规则易于理解，准确率较高。缺点：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法低效。适用：仅...

2018-07-20 22:27:21 283

原创数据挖掘算法----决策树ID3算法

简介ID3算法是一种分类预测算法，其核心思想是“信息熵”。ID3算法通过计算每个属性的信息增益，认为信息增益高的是好属性，每次划分选取信息增益最高的属性为划分标准，重复这个过程，直至生成一个能完美分类训练样例的决策树。该决策树方法先根据训练集数据形成决策树，如果该树不能对所有对象给出正确地分类那么选择一些例外加入到训练集数据中，重复该过程直到形成正确的决策集，决策树代表决策集的树形结构。算...

2018-07-20 21:56:28 710

原创机器学习算法-----分类算法总结

分类问题属于预测任务，分类算法包括基本分类器和组合分类器。其中基本分类器包括决策树、朴素贝叶斯、人工神经网络、K-近邻、支持向量机等；组合分类器包括随机森林，adaboost，xgboost等。...

2018-07-20 19:31:38 310

原创机器学习算法分类---监督式、无监督、半监督、强化学习

机器学习算法分为四类：1、监督式学习（Supervised learning）监督式学习是拥有一个输入变量（自变量）和一个输出变量（因变量），使用某种算法去学习从输入到输出之间的映射函数。目标是得到足够好的近似映射函数，当输入新的变量时可以以此预测输出变量。因为算法从数据集学习的过程可以被看作一名教师在监督学习，所以称为监督式学习。监督式学习可以进一步分为分类（输出类别标签）和回归（输出连...

2018-07-20 19:15:36 9788

原创数据挖掘算法----决策树

简介决策树（Decision Tree）算法，属于机器学习有监督分类算法的一种，决策树是一个预测模型。决策树是一种用于对实例进行分类的树形结构。由结点（node）和有向边（directed edge）组成。结点有两种类型：内部结点与叶结点，内结点表示一个特征或属性的测试条件（用于分开具有不同特性的记录），叶结点表示一个分类。使用决策树模型，首先构建决策树，然后从决策树的根结点开始，沿着内部...

2018-07-19 21:31:08 4036 1

原创数据挖掘十大经典算法----简介

一、C4.5机器学习算法中的一个分类决策树（Decision Tree）算法，它是决策树核心算法ID3的改进算法。二、K-MeansThe k-means algorithm，聚类算法，将对象根据属性分为K类，进行分割。与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。三、SVM支持向量机（support vector machines），简称...

2018-07-19 14:30:13 471

菜菜鸟的博客