CongliYin的博客

达则兼济天下,穷则独善其身。

排序:
默认
按更新时间
按访问量

使用sklearn训练xgboost模型

xgboost是提升树方法的一种,算法由GBDT改进而来,在计算时也采用并行计算,速度更快。sklearn中提供分类和回归的xgboost模型,本文对二分类问题采用xgboost进行训练。 一、数据准备 1、样本 正样本:1.5W 负样本:10W 5个特征 2、分训练集和测试集 ...

2018-07-17 23:28:54

阅读数:121

评论数:0

pandas处理机器学习中的训练数据

1、pandas读取csv neg_data = pd.read_csv('negative.csv') 2、查看前10行数据 neg_data.head(10) 3、查看数据的长度 len(neg_data) 4、删除某些列,需使用axis=1指定删除的对象是列(axis=0...

2018-07-15 11:06:16

阅读数:58

评论数:0

机器学习算法常用评估指标

在认识机器学习算法的常用评估指标之前,先明确一下几个概念的定义: TP(True Positive):正样本,预测为正样本 FP(False Positive):正样本,预测为负样本 TN(True Negative):负样本,预测为负样本 FN(False Negative):负样本,预测为...

2018-05-27 21:21:55

阅读数:72

评论数:0

t-SNE算法

t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在 08 年提出来。t-SNE 是一种非线性降维算法,非常适用于高维数据降维到 2...

2018-05-13 14:27:54

阅读数:135

评论数:0

机器学习中的常见问题

1、过拟合的解决方法 更多的训练集; 加入正则化 2、L1正则化和L2正则化的区别 L1是取向量每个原色的绝对值和,L2是取向量每个元素的平方和的平方根; L1正则化是截断效应,它可以使一些特征的系数变小,甚至可以让一些绝对值较小的系数直接变成0; L2正则化在不抛弃人任何一个特征的情...

2018-04-26 22:03:37

阅读数:30

评论数:0

机器学习实战之线性回归算法

#!/bin/python #coding=utf-8 # 实现线性回归 import numpy as np import random #自动生成数据集,numPoints是行数 #x是测试数据集,2维的向量,y是label def genData(numPoints,bias,varia...

2018-04-11 10:01:34

阅读数:33

评论数:0

机器学习实战之神经网络用于手写数字识别

有关神经网络(NeuralNetwork)的理论介绍,将在后续章节中进行整理,为了对神经网络有一个直观的理解,本篇博文使用神经网络实现手写数字识别项目,使用 logistic 函数作为激活函数,代码如下,注释比较清楚,不再赘述: #!/bin/python #coding=utf-8 # 实现神...

2018-04-10 17:34:50

阅读数:52

评论数:0

机器学习实战之使用 scikit-learn 库实现 svm

有关 svm 的理论知识,在博客支持向量机(SVM)入门理解与推导中已有详细介绍,svm的特性: 训练好的模型的算法复杂度由支持向量的个数决定,而不是由数据的维度决定,所以 svm 算法不太容易产生 overfitting; svm 训练出来的模型完全依赖于支持向量,即使训练集中所有的非支持向...

2018-04-04 11:53:03

阅读数:54

评论数:0

机器学习实战之使用 scikit-learn 库实现 knn

KNN 全称为 k nearest neighbors,是一个分类算法,无需训练,简单易于理解,但需要遍历整个数据集,需要大量的空间,计算量大。其思想如下: 对未知类别的数据依次执行以下操作: 计算已知类别数据集中的点与当前点之间的距离(一般采用欧式距离); 将距离按照递增顺序排序; 选取距...

2018-04-03 11:31:45

阅读数:25

评论数:0

机器学习实战之使用 scikit-learn 库实现决策树

数据如图所示: 1、数值转换: 构造决策树之前,需要将数据转化成数值形式,对了类别 label,yes 和 no 分别为 1, 0;对了样本数据,比如第一行属性 age,它有 youth middle_aged 和 senior 三类,那么我们可以把 youth 写成 [1,0,0],mi...

2018-04-03 10:27:25

阅读数:22

评论数:0

决策树

一、简介 决策树是一种基本的分类与回归方法,其主要优点是模型具有可读性,分类速度快。决策树的学习通常包括三个步骤:特征选择、决策树生成和决策树剪枝,常用的决策树算法有ID3, C4.5 和 CART,下面一一介绍。 二、ID3算法 1、特征选择 特征选择在于选取对训练数据具有分类能力的...

2018-03-30 11:59:03

阅读数:82

评论数:0

支持向量机(SVM)入门理解与推导

一、简介 支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括: 当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; 当训练样本...

2018-03-28 17:03:05

阅读数:19225

评论数:10

机器学习实战之决策树算法

决策树算法目前最流行的有ID3, C4.5, CART三种,其中C4.5是由ID3改进而来,用信息增益比代替ID3中的信息增益,ID3算法不能直接处理连续型数据,事先要把数据转换成离散型才可以操作,C4.5算法可以处理非离散型数据,而且可以处理不完整数据。CART算法使用基尼指数用于特征选择,并在...

2018-03-27 09:53:54

阅读数:90

评论数:0

机器学习实战之k-近邻算法

简介: k-近邻算法是一种分类算法,无需训练 算法思想:对未知类别的数据集合中的每一个点执行以下操作: 计算已知类别数据集(训练集)中的点与当前点的距离; 将距离按照递增顺序排列; 选取距离最小的k个点; 确定这k个点的所属类别,计算各类别出现的概率; 将概率最大的类别作为当前点的类别; ...

2018-03-23 15:32:55

阅读数:41

评论数:0

MacOS+python2.7搭建tensorflow环境报错问题解决

第一步:安装pip $ sudo easy_install pip 第二步:找到合适的安装包url #macOS + python2.7 $ export TF_BINARY_URL=http://storage.googleapis.com/tensorflow/mac/tenso...

2018-03-10 10:47:04

阅读数:71

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭