自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

往事随风如烟的博客

玩累了,编程放松一下吧

  • 博客(10)
  • 资源 (2)
  • 收藏
  • 关注

翻译 数据挖掘与机器学习之交叉验证

泛化误差和训练误差 学习器在训练集通过学习得到了一个模型,那么这个模型会不会真的适用于其他的场景呢?一般来说,模型在训练集上的误差叫作训练误差,而在新的样本或者说数据集上的误差叫作泛化误差,显然,我们希望得到一个泛化误差小的模型应用于新的数据集和场景。 过拟合和欠拟合 过拟合是指学习器把训练集自身的一些特征当做了所有的样本的一般性性质,导致了模型泛化能力的下降,而欠拟合则是指学习能力低,对训

2017-11-08 15:49:28 1217

转载 数据挖掘学习之决策树算法PART2

1. CART决策树算法划分选择   ID3算法使用信息增益来选择特征;C4.5算法中,采用信息增益比选择特征来减少信息增益容易选择特征值多的特征的问题。但是无论是ID3还是C4.5,都是基于信息论的熵模型的,这里面会涉及大量的对数运算。运算量大,且不能用于回归,能不能优化为二分类问题呢?CART算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越

2017-11-07 23:04:11 554

原创 数据挖掘学习之决策树算法

1、决策树的基本原理 首先拥有训练集,训练集中获得属性集A,在根节点,训练集根据特征的不同取值,将训练集根据特征取值分为若干子数据集,对接下来的若干个子数据根据剩下来的属性特征进一步划分,使得椰子结点得到的数据集尽可能为同一类。这就是决策树的基本思想。类似与平时玩游戏是给出一个信息,然后回答:对或者错的游戏。 2、划分选择 那么划分选择就是决策树的重点啦。 2.1决策树ID3算法 首先,

2017-11-06 23:33:10 539

原创 数据挖掘学习之特征工程

1、什么是特征工程 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,特征工程包括以下方面 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。

2017-11-03 14:41:59 478

原创 数据挖掘学习之数据探索

数据探索是数据挖掘必不可少的一环,数据探索技术会对模型准确率的提高带来惊喜的效果。 1、什么是数据探索? 答:数据探索是通过绘图、计算、等手段,分析数据集的数据质量、数据的结构、数据的趋势和数据的关联性,为数据探索之后的特征工程阶段打下坚实的基础。 2、数据探索的内容 数据的质量分析和数据的特征分析 2.1数据的质量分析是指检查数据中是否存在脏数据,包括:缺失值、异常值、

2017-11-03 12:57:33 967

原创 python学习(一)--python3的注释

python3中有单行注释和多行注释 单行注释以#开头,例如: # 这是我的第一个注释 print("my first .....")多行注释用三个单引号 ''' 或者三个双引号 """ 将注释括起来:””” 这是多行注释 这是多行注释 这是多行注释 ””” print('hello world')''' 这也是多行注释 这也是多行注释 这也是多行注释 ''' print('hello wor

2017-09-07 23:00:08 269

转载 macOS下TAR.GZ方式安装MySQL5.7

解压: # 解压 cd /Users//Downloads tar zxvf mysql-5.7.9-osx10.10-x86_64.tar.gz # 移动解压后的二进制包到安装目录 sudo mv mysql-5.7.9-osx10.10-x86_64 /usr/local/mysql # 更改 mysql 安装目录所属用户与用户组 cd /usr/local

2017-08-21 10:56:48 255

原创 数据结构之线性表

线性表是最基本的一种数据结构,它是一种线性结构,是一种含有n>=0个结点的序列,其中开始结点没有前驱,终端结点没有后继,其他结点有且只有一个前驱和后继。 特征:集合中必然存在且只有一个开始结点和终端结点。其他结点均有一个前驱和后继 下面先实现线性表接口IList,其中定义了对该表的许多操作: package ilist; public interface IList { public

2017-06-24 15:14:29 256 1

原创 数据结构之队列

队列概述 队列是只允许在表的一端进行插入,而在表的另一端进行删除操作的一种特殊线性表。允许插入的一端称为“队尾”,允许删除的一端称为“队首”。 队列特点 先进先出(FIFO) 队列结构 队列的主要操作 代码如下: package myQueue; public interface IQueue { public void clear();//清空 public b

2017-05-12 20:52:12 195

原创 JAVA多线程学习

一、进程和线程的关系 进程:程序的一次动态执行过程。每个进程都有独立的代码和数据空间,进程间的切换会有较大的开销,一个进程包含多个线程。 线程:同一类线程共享代码和数据空间,每个线程有独立的运行栈和程序计数器(PC),线程切换开销小。  多进程是指操作系统能同时运行多个任务(程序)。 多线程是指在同一程序中有多个顺序流在执行。 线程和进程一样分为五个阶段:创建、就绪、运行、阻塞、终止。

2017-04-29 18:52:59 143

python教材

该资源是叫你如何学习python的,非常有用处额。适合新手

2018-07-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除