樱缘之梦

我的博客

百面机器学习——第一章特征工程

特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题和预测模型之间的关系。 对于机器学习问题,数据和特征往往决定了结果的上限,而...

2019-03-01 15:47:22

阅读数 116

评论数 0

Orange-Classification,Regression

1.Classification Orange和sklearn一样,提供了Classification和Regression等机器学习的算法,具体使用如下: import Orange data = Orange.data.Table("voting")...

2019-01-23 18:21:05

阅读数 73

评论数 0

Orange——The Data

The Data 这个部分描述的是怎样在Orange上加载数据。我们也将展示如何探索数据,发现一些基本统计特性,怎么数据取样。 Data Input Orange可以读取本机以制表符分隔的格式的文件,也可以从任何主要的标准电子表格文件类型加载数据,像CSV,Excel。本机以制表符分割的格式...

2019-01-23 15:40:05

阅读数 78

评论数 0

将DataFrame格式的数据存入到mysql数据库中

         因为最近频繁操作数据库,特别是写入数据比较麻烦。在DataFrame格式或者是Series格式的数据处理之后,总是会面临写入数据,迫不得已只能进行格式转换,搜索过程中发现了to_sql()函数,就百度了用法,并实现了一下,以下记录操作过程和遇到的问题及解决方法。  First...

2018-07-18 17:31:09

阅读数 4384

评论数 3

过拟合问题——正则化方法

      看了很多资料,本身想放一个正则化的概念的,实在不敢放,怕吓跑一堆人,所以,将就吧。      首先,我们知道正则化(Regularization)是解决过拟合问题的,简单来说,过拟合就是训练样本效果比较好,但是在测试集上的效果就比较差了,官方一点的话就是模型的泛化能力太差。      ...

2018-07-13 13:16:19

阅读数 510

评论数 0

Git总结

      本篇博客参考廖雪峰老师的Git教程      Git是一个分布式版本控制系统,可以对文件的修改痕迹进行记录,有利于文件的管理。       集中式版本控制系统:版本库是集中存放在中央服务器,需要从中央服务器取得最新版本之后才可以工作,工作完之后又将成果提交给中央服务器。必须联网才可以工...

2018-06-10 19:27:17

阅读数 51

评论数 0

sklearn——AdaBoost应用

选自《python大战机器学习》

2018-04-28 18:05:45

阅读数 414

评论数 0

sklearn——决策树

总结sklearn决策树的使用,方便以后查阅。1.分类决策树   (基于CART树)原型:参数:2、回归分类树原型:参数:3、export_graphviz当训练完毕一颗决策树时,可以通过sklearn.tree.export_graphviz()来将决策树转化为Graphviz格式的文件,然后,...

2018-04-27 20:20:39

阅读数 815

评论数 0

Graphviz的安装及纠错

在Anaconda Prompt里边输入conda install graphviz   安装成功之后输入pip install graphviz 它会提示成功安装。启动 Jupyter Notebook ,在文件里边输入 import  graphviz 测试,如果没有报错证明,模块安装成功,但...

2018-04-10 15:01:52

阅读数 1257

评论数 8

tensorflow入门

Tensorflow是深度学习的热门框架    计算图是Tensorflow中最基本的概念,Tensorflow中的所有计算都会被转化为计算图中的节点。Tensor是张量,这里可以理解为多维数组,Flow则体现了它的计算模型,直观地表达了张量之间通过计算相互转化的过程。Tensorflow本身就是...

2018-03-27 14:52:27

阅读数 87

评论数 0

决策树——CART和模型树

CART树理解:      如果CART树处理离散型数据,叫做分类决策树,那么,引入基尼指数作为寻找最好的数据划分的依据,基尼指数越小,说明数据的“纯度越高”,随机森林的代码里边就运用到了基尼指数。如果CART树处理连续型数据时,叫做回归决策树,那么,引入了平方误差,首先,它使用二元切分来处理数据...

2018-03-21 15:51:26

阅读数 1450

评论数 0

随机森林

    随机森林的思想:随机取样,创建M棵决策树,并对决策树的结果进行投票,选出最多的类别作为最后的分类结果。这里在创建决策树的时候引入了基尼指数的概念,基尼指数和信息增益的作用一样,都是选出数据集的最佳分界点,不过这里选择的是最小的基尼指数,每一个划分好的数据集就是一颗决策树,计算每棵决策树的基...

2018-03-20 16:20:17

阅读数 242

评论数 0

回归分析——线性回归

   回归的目的是预测数值型的目标值。最直接的方法就是依据输入写出一个目标值的计算公式。这就是回归方程,公式为y=wX,其中w是回归系数,求这些回归系数的过程就是回归。这里的回归是线性回归,现在的问题是,手里有一些X和对应的y,怎么能找到w呢?一个常用的方法是找出使误差最小的w。这里的误差指的是预...

2018-03-19 19:07:47

阅读数 94

评论数 0

集成算法——Adaboost代码

     集成算法是我们将不同的分类器组合起来,而这种组合结果就被称为集成方法或者是元算法。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同意算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。两种形式:bagging方法:从原始数据集选择S次后得到S个新数据集,...

2018-03-19 15:46:53

阅读数 352

评论数 0

梯度下降算法

    在学习逻辑回归时,对梯度上升算法进行了应用,看到其他的博客讲解,梯度上升算法适合求最大值,梯度下降算法适合求最小值,这里有一个分析:梯度上升算法公式                                                     是学习率,是一个常数。       ...

2018-03-14 20:46:19

阅读数 68

评论数 0

朴素贝叶斯算法

介绍概率和条件概率: 假设一个盒子里装了3个灰球和4个黑球,则黑球的概率是4/7,灰球的概率是3/7,这就是我们学习过的概率。现将这7个球分别放在A,B两个盒子里边,其中,A盒子里边装2个灰球,2个黑球,B盒子里边装1个灰球,2个黑球,此时,如果我们计算从B中取出灰球的概率,这个就是条件概率。计算...

2018-03-13 16:56:21

阅读数 89

评论数 0

决策树 算法原理及代码

   决策树可以使用不熟悉的数据集合,并从中提取出一系列的规则,这是机器根据数据集创建规则的过程,就是机器学习的过程。用一个小案例分析:  通过No surfacing  和 flippers判断该生物是否是鱼,No surfacing 是离开水面是否可以生存,flippers判断是否有脚蹼引入信...

2018-03-08 20:11:19

阅读数 2505

评论数 0

tensorflow的安装

安装好adaconda软件,打开  adaconda    prompt      anaconda search -t conda tensorflow   查看  conda create  -n tensorflow python=3.5  配置python=3.5环境  选择 yes 进行...

2018-03-08 11:02:11

阅读数 111

评论数 0

机器学习——逻辑回归

   假设我们有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程就称作回归。逻辑回归的主要思想是根据现有数据对分类边界线建立回归公式,以此分类。这里的“回归”源于最佳拟合,表示要找到最佳拟合参数。逻辑回归是基于条件概率的判别模型。 推导过程:        为了实...

2018-03-05 20:34:36

阅读数 372

评论数 0

机器学习——支持向量机主要思想

概念:支持向量运算的分类器,在数据上应用基本形式的SVM分类器就可以得到低错误的结果,能够对训练集以外的数据点做出很好的分类决策。名词:支持向量:离分离超平面最近的那些点,需要找到最大化支持向量到分隔超平面的距离的优化求解方式。分割超平面:在二维空间内,分隔超平面就是一条直线,可以分开两种不同的点...

2018-03-03 14:37:50

阅读数 1354

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭