2018年07月_求知者_123

转载机器学习--GBDT实战

参考： sklearn.ensemble.GradientBoostingClassifier：官网https://louisscorpio.github.io/2018/01/19/代码实战之GBDT/#尝试用sklearn进行GBDT实战，选择模型最优参数，而后介绍GradientBoostingClassifier实现类GBDT代码实战 sklearn之GradientB...

2018-07-30 15:04:00 674

转载随机森林 sklearn实现

一简介随机森林是一种比较有名的集成学习方法，属于集成学习算法中弱学习器之间不存在依赖的一部分，其因为这个优点可以并行化运行，因此随机森林在一些大赛中往往是首要选择的模型。随机森立中随机是核心，通过随机的选择样本和选择特征，降低了决策树之间的相关性，随机森立中的随机主要有两层意思，一是随机在原始训练数据中有放回的选取等量的数据作为训练样本，二是在建立决策树时，随机的选特征中选取一部分特征建...

2018-07-27 13:54:12 3813

转载梯度提升决策树（GBDT）

综述GBDT(Gradient Boosting Decision Tree) 又叫 MART（Multiple Additive Regression Tree)，是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。它在被提出之初就和SVM一起被认为是泛化能力较强的算法。 GBDT中的树是回归树（不是分类树），GBDT用来做回归预测，调整后也可以用于分类。 ...

2018-07-27 13:49:54 524

转载机器学习 -- 决策树（decision tree）算法

转自：https://blog.csdn.net/u012328159/article/details/70184415决策树系列博客：决策树（一）——构造决策树方法决策树（二）——剪枝决策树（三）——连续值处理决策树（四）缺失值处理决策树算法起源于E.B.Hunt等人于1966年发表的论文“experiments in Induction”，但真正让决策树成...

2018-07-26 10:01:28 2071

转载逻辑回归（Logistic Regression）原理及推导

参考：https://blog.csdn.net/programmer_wei/article/details/52072939唐宇迪：机器学习

2018-07-25 13:35:35 958

转载 Logistic Regression ---损失函数推导

2018-07-24 15:47:56 680

原创 pandas 分组、聚合函数groupby

分组过程如下图所示：import numpy as npimport pandas as pddf=pd.DataFrame({'key1':list('aabbab'), 'key2':list('cccddd'), 'value1':np.arange(1,7), 'value...

2018-07-24 13:55:22 984

原创机器学习-类别不平衡问题

一、类别不平衡类别不平衡（class-imbalance）是指分类任务中不同类别的训练样例数目差别很大的情况。比如说一个二分类问题，1000个训练样本，比较理想的情况是正类、负类样本的数量相差不多；而如果正类样本有998个、负类样本仅2个，就意味着存在类不平衡。那么学习方法只需返回一个永远将新样本预测为反例的学习器，就能达到99.8% 的精度；然而这样的学习器往往没有价值，因...

2018-07-23 16:16:19 1423 1

原创机器学习-分类模型评估标准

对模型的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure)，回归任务最常用的性能度量是"均方误差" (mean squared error)。下面主要介绍分类模型的评估以及在sklearn库中的实现方法。一、错误率与精度（accuracy）错误率和精度是分类任...

2018-07-22 19:50:23 2974 1

参考：https://blog.csdn.net/chinwuforwork/article/details/51645017聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如...

2018-07-22 10:30:52 361

原创 python 生成随机数random操作

from numpy import random### random.seed(1) 设置种子seed,可以每次生成相同的随机整数### random.randint(a,b) 生成1个在a至b区间的随机整数print(random.randint(0,10))print('.........\n')### random.randint(a,b,size=n) 生成n个在a至b区间的...

2018-07-21 18:32:09 1313

原创 python之基础可视化

import matplotlib.pyplot as pltplt.plot([1,2,5],[4,5,6],color='g',linestyle='dashed')plt.axis([0,6,2,8]) ### axis([xmin, xmax, ymin, ymax])指定x,y的坐标范围plt.show()一、直线图--plot### plot直线图impo...

2018-07-20 23:55:54 348

原创 pandas 统计数据频率函数value_counts

value_counts默认参数如下：value_counts(values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)### Series类型import pandas as pddata=pd.Series(['python','java','python','php','php'...

2018-07-19 15:11:33 18785 2

原创 linux 查看及修改字符集

一、查看当前linux系统的字符集方法 1.1、locale1.2、echo $LANG1.3、env |grep LANG二、查看当前系统支持的字符集[root@localhost ~]# locale -a三、修改系统字符集3.1、临时生效 ### 比如字符集修改为：zh_CN.gb2312可以看到系统字符集由原来的en_US.UTF-8修...

2018-07-16 23:19:39 58599

原创机器学习 - 梯度下降

参考：点击打开链接一、梯度下降法　　在机器学习算法中，对于很多监督学习模型，需要对原始的模型构建损失函数，接下来便是通过优化算法对损失函数进行优化，以便寻找到最优的参数。在求解机器学习参数的优化算法中，使用较多的是基于梯度下降的优化算法(Gradient Descent, GD)。　　梯度下降法有很多优点，其中，在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，这...

2018-07-15 15:48:51 234

原创 sklearn 线性回归实践

import numpy as npimport pandas as pd from sklearn import linear_model,datasets,metricsimport matplotlib.pyplot as pltdata=pd.read_csv('Folds5x2_pp.csv')## print(data) ### 9568*5X = data[['A...

2018-07-15 10:54:44 2407

原创 Python 数据清洗之缺失数据填充fillna（）

缺失数据比较多的情况下，可以直接滤除，缺失数据比较少时，对数据进行填充就很有必要了。数据填充函数fillna（）默认参数如下：fillna(self, value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)import numpy as npfrom numpy...

2018-07-12 12:17:06 58613 1

原创 2018年Python最常用的20个数据科学库

原文地址：https://activewizards.com/blog/top-20-python-libraries-for-data-science-in-2018/Python 在解决数据科学任务和挑战方面继续处于领先地位。去年，我们曾发表一篇博客文章 Top 15 Python Libraries for Data Science in 2017，概述了当时业已证明最有帮助的Python库...

2018-07-12 09:49:25 3729

原创 Python 数据清洗之缺失数据滤除dropna（）

实际应用中，在得到原始数据时，经常碰到数据缺失问题，对数据进行加工或清洗就非常有必要了import numpy as npfrom numpy import nanimport pandas as pddata=pd.DataFrame(np.arange(3,19,1).reshape(4,4),index=list('abcd'))print(data)print(data.i...

2018-07-11 20:04:59 29458 2

原创 sklearn.preprocessing 之数据预处理

标准化

2018-07-10 13:40:24 2157

原创 pandas 之数据合并concat

import pandas as pds1=pd.Series(['a','b'])s2=pd.Series(['c','d']) concat( ) 参数如下：concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, ve...

2018-07-09 18:16:37 450

原创 python 数据合并函数merge( )

python中的merge函数与sql中的 join 用法非常类似，以下是merge( )函数中的参数：merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=('_x', '_y'), cop...

2018-07-08 22:32:45 159189 8

原创 linux 防火墙firewalld、selinux开启和关闭

一、firewalld### 查看防火墙状态systemctl status firewalld ### 临时开启防火墙 systemctl start firewalld### 临时停止防火墙 systemctl stop firewalld### 重启防火墙systemctl restart firewalld### ...

2018-07-05 17:54:05 5620

qq_21840201的博客