自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

转载 机器学习--GBDT实战

参考: sklearn.ensemble.GradientBoostingClassifier:官网https://louisscorpio.github.io/2018/01/19/代码实战之GBDT/#尝试用sklearn进行GBDT实战,选择模型最优参数,而后介绍GradientBoostingClassifier实现类GBDT代码实战 sklearn之GradientB...

2018-07-30 15:04:00 674

转载 随机森林 sklearn实现

一 简介随机森林是一种比较有名的集成学习方法,属于集成学习算法中弱学习器之间不存在依赖的一部分,其因为这个优点可以并行化运行,因此随机森林在一些大赛中往往是首要选择的模型。随机森立中随机是核心,通过随机的选择样本和选择特征,降低了决策树之间的相关性,随机森立中的随机主要有两层意思,一是随机在原始训练数据中有放回的选取等量的数据作为训练样本,二是在建立决策树时,随机的选特征中选取一部分特征建...

2018-07-27 13:54:12 3813

转载 梯度提升决策树(GBDT)

综述GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。  GBDT中的树是回归树(不是分类树),GBDT用来做回归预测,调整后也可以用于分类。 ...

2018-07-27 13:49:54 524

转载 机器学习 -- 决策树(decision tree)算法

转自:https://blog.csdn.net/u012328159/article/details/70184415决策树系列博客:决策树(一)——构造决策树方法 决策树(二)——剪枝 决策树(三)——连续值处理 决策树(四)缺失值处理        决策树算法起源于E.B.Hunt等人于1966年发表的论文“experiments in Induction”,但真正让决策树成...

2018-07-26 10:01:28 2071

转载 逻辑回归(Logistic Regression)原理及推导

       参考:https://blog.csdn.net/programmer_wei/article/details/52072939唐宇迪:机器学习 

2018-07-25 13:35:35 958

转载 Logistic Regression ---损失函数推导

2018-07-24 15:47:56 680

原创 pandas 分组、聚合函数groupby

 分组过程如下图所示:import numpy as npimport pandas as pddf=pd.DataFrame({'key1':list('aabbab'), 'key2':list('cccddd'), 'value1':np.arange(1,7), 'value...

2018-07-24 13:55:22 984

原创 机器学习-类别不平衡问题

一、类别不平衡         类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大的情况。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有998个、负类样本仅2个,就意味着存在类不平衡。那么学习方法只需返回一个永远将新样本预测为反例的学习器,就能达到99.8% 的精度;然而这样的学习器往往没有价值,因...

2018-07-23 16:16:19 1423 1

原创 机器学习-分类模型评估标准

          对模型的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要有衡量模型泛化能力的评价标准,这就是性能度量(performance measure),回归任务最常用的性能度量是"均方误差" (mean squared error)。下面主要介绍分类模型的评估以及在sklearn库中的实现方法。 一、错误率与精度(accuracy)         错误率和精度是分类任...

2018-07-22 19:50:23 2974 1

原创 机器学习-无监督聚类K-means

参考:https://blog.csdn.net/chinwuforwork/article/details/51645017聚类属于无监督学习,以往的回归、朴素贝叶斯、SVM等都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x,比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。比如...

2018-07-22 10:30:52 361

原创 python 生成随机数random操作

from numpy import random### random.seed(1) 设置种子seed,可以每次生成相同的随机整数### random.randint(a,b) 生成1个在a至b区间的随机整数print(random.randint(0,10))print('.........\n')### random.randint(a,b,size=n) 生成n个在a至b区间的...

2018-07-21 18:32:09 1313

原创 python之基础可视化

import matplotlib.pyplot as pltplt.plot([1,2,5],[4,5,6],color='g',linestyle='dashed')plt.axis([0,6,2,8]) ### axis([xmin, xmax, ymin, ymax])指定x,y的坐标范围plt.show()一、直线图--plot### plot直线图impo...

2018-07-20 23:55:54 348

原创 pandas 统计数据频率函数value_counts

value_counts默认参数如下:value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)### Series类型import pandas as pddata=pd.Series(['python','java','python','php','php'...

2018-07-19 15:11:33 18785 2

原创 linux 查看及修改字符集

一、查看当前linux系统的字符集方法 1.1、locale1.2、echo $LANG1.3、env |grep LANG二、查看当前系统支持的字符集[root@localhost ~]# locale -a三、修改系统字符集3.1、临时生效    ### 比如字符集修改为:zh_CN.gb2312可以看到系统字符集由原来的en_US.UTF-8修...

2018-07-16 23:19:39 58599

原创 机器学习 - 梯度下降

参考:点击打开链接一、梯度下降法  在机器学习算法中,对于很多监督学习模型,需要对原始的模型构建损失函数,接下来便是通过优化算法对损失函数进行优化,以便寻找到最优的参数。在求解机器学习参数的优化算法中,使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)。  梯度下降法有很多优点,其中,在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,这...

2018-07-15 15:48:51 234

原创 sklearn 线性回归实践

import numpy as npimport pandas as pd from sklearn import linear_model,datasets,metricsimport matplotlib.pyplot as pltdata=pd.read_csv('Folds5x2_pp.csv')## print(data) ### 9568*5X = data[['A...

2018-07-15 10:54:44 2407

原创 Python 数据清洗之缺失数据填充fillna()

缺失数据比较多的情况下,可以直接滤除,缺失数据比较少时,对数据进行填充就很有必要了。数据填充函数fillna()默认参数如下:fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)import numpy as npfrom numpy...

2018-07-12 12:17:06 58613 1

原创 2018年Python最常用的20个数据科学库

原文地址:https://activewizards.com/blog/top-20-python-libraries-for-data-science-in-2018/Python 在解决数据科学任务和挑战方面继续处于领先地位。去年,我们曾发表一篇博客文章 Top 15 Python Libraries for Data Science in 2017,概述了当时业已证明最有帮助的Python库...

2018-07-12 09:49:25 3729

原创 Python 数据清洗之缺失数据滤除dropna()

实际应用中,在得到原始数据时,经常碰到数据缺失问题,对数据进行加工或清洗就非常有必要了import numpy as npfrom numpy import nanimport pandas as pddata=pd.DataFrame(np.arange(3,19,1).reshape(4,4),index=list('abcd'))print(data)print(data.i...

2018-07-11 20:04:59 29458 2

原创 sklearn.preprocessing 之数据预处理

标准化

2018-07-10 13:40:24 2157

原创 pandas 之数据合并concat

import pandas as pds1=pd.Series(['a','b'])s2=pd.Series(['c','d'])  concat( )  参数如下:concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, ve...

2018-07-09 18:16:37 450

原创 python 数据合并函数merge( )

python中的merge函数与sql中的 join 用法非常类似,以下是merge( )函数中的参数:merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), cop...

2018-07-08 22:32:45 159189 8

原创 linux 防火墙firewalld、selinux开启和关闭

一、firewalld### 查看防火墙状态systemctl status firewalld ### 临时开启防火墙 systemctl start firewalld### 临时停止防火墙 systemctl stop firewalld### 重启防火墙systemctl restart firewalld### ...

2018-07-05 17:54:05 5620

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除