自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

转载 pandas的qcut()方法

pandas的qcut可以把一组数字按大小区间进行分区,比如 data = pd.Series([0,8,1,5,3,7,2,6,10,4,9]) 比如我要把这组数据分成两部分,一半大的,一半小的,如果是小的数,值就变成’small number’,大的数,值就变成’large number’:...

2020-05-28 12:03:39 6 0

转载 机器学习(十六)特征工程之数据分箱

1 分箱简介 数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。 例如,例如我们有一组关于人年龄的数据,如下图所示: 初始数据 现在我们希望将他们的年龄分组到更少的间隔中,可以通过设置一些条件来实现: 分箱后的数...

2020-05-27 18:23:28 3 0

转载 降低基数,连续变量分段

数据准备非常重要: 1.从不同的渠道收集数据; 2.清理数据中意外错误或被认为是极端值的取值; 3.生成衍生的变量(feature)。 在数据处理过程,需要进行的操作: 当名义变量的取值大于12个,考虑降低基数: 1>将相同含义的变量合并; 2>出现频率下的类别被合并为一个新的类别,并...

2020-05-27 18:20:31 22 0

转载 【数据处理】python变量分箱常见手法:分类型、数值型、卡方、自定义

""" 分箱逻辑: 1.类别型特征: 1)类别数在5个以下,可以直接根据类别来分箱 (binning_cate) 2)类别数在5个以上,建议做降基处理,再根据降基后的类别做分箱 2.数值型特征: 1)离散型数值特征(特征value的变动幅度较小): 若特征val...

2020-05-27 18:17:57 7 0

原创 Python 列表替换字符串的数据

list中的内容有!-% , .#7&33& , ##71%, 要把这三个字符串里的#替换为A,%换为N,*换为M lst = [’!-%’, ‘.#7&33&’, '##71%’] x = [c.replace(’#’,‘A’) for c in ...

2020-05-27 10:52:11 17 0

转载 牢记分类指标:准确率、精确率、召回率、F1 score以及ROC

我们倾向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。 为分类任务选择正确的衡量指标 栗子1: 倘若某人声称创建...

2020-05-24 11:32:17 45 0

转载 分类指标准确率(Precision)和正确率(Accuracy)的区别

http://www.cnblogs.com/fengfenggirl/p/classification_evaluate.html 一、引言 分类算法有很多,不同分类算法又用很多不同的变种。不同的分类算法有不同的特定,在不同的数据集上表现的效果也不同,我们需要根据特定的任务进行算法的选择,如何选...

2020-05-24 00:33:55 533 0

转载 转载:Sklearn-LogisticRegression逻辑回归(有处理样本不均衡时设置参数的方法)

逻辑回归: 可以做概率预测,也可用于分类,仅能用于线性问题。通过计算真实值与预测值的概率,然后变换成损失函数,求损失函数最小值来计算模型参数,从而得出模型。 sklearn.linear_model.LogisticRegression官方API: 官方API:http://scikit-l...

2020-05-23 22:21:56 145 0

转载 pip 安装 sklearn 教程

题外话:pip安装模块,一波三折,查了好多资料,给大家分享一下。如有不对,敬请谅解,谢谢! 要想使用sklearn、pandas等模块,作数据分析,可直接下载Anaconda,具体怎么做,网上有很多。如果你偏不,接着往下看: 第一步:下载python----本人下载的是python3.5,电脑...

2020-05-23 15:17:47 25 0

转载 XGBOOST从原理到实战:二分类 、多分类

注:转载请注明出处,https://blog.csdn.net/HHTNAN/ 1.XGBoost 2. XGBoost的优点 2.1 正则化 2.2 并行处理 2.3 灵活性 2.4 缺失值处理 2.5 剪枝 2.6 内置交叉验证 3. XGBoost详解 3.1 数据格式 3.2 参数设置 ...

2020-05-23 14:08:44 104 0

转载 xgboost 多分类:objective参数(reg:linear,multi:softmax,multi:softprob)对比分析

一、问题 上篇文章中我们已经搞明白了逻辑回归的问题中,xgboost的train(),fit()方法以及不同参数的objective的对应的输出结果和关系,这篇文章我们就来研究下xgboost再做多分类时,train(),fit()建模后输出的值是怎么样的,它都有那些objective的参数,并...

2020-05-23 13:46:03 81 0

原创 sklearn中多类分类器、多标签分类器、多输出回归器、多输出-多分类分类器的算法

Summary Number of targets Target cardinality Valid type_of_target Multiclass classification 1 ...

2020-05-23 12:35:42 144 0

原创 handle_unknown ignore

test

2020-05-22 16:13:52 10 0

原创 One-HOT编码处理训练集中没遇到过的特征值的方法handle_unknown

Another possibility to convert categorical features to features that can be used with scikit-learn estimators is to use a one-of-K, also known as one...

2020-05-22 16:12:35 66 0

原创 训练集和测试集类别特征值不同的处理

1、one-hot编码怎么让测试集的类别与训练集的类别在数量上一致呢?https://www.zhihu.com/question/314941339 one-hot编码怎么让测试集的类别与训练集的类别在数量上一致呢? 我的训练集在one-hot编码后有4449个特征,而在测试集中有4109个特征...

2020-05-22 15:47:58 416 0

转载 警惕「特征工程」中的陷阱

https://zhuanlan.zhihu.com/p/33651227 特征工程(Feature Engineering)是机器学习中的重要环节。在传统的项目中,百分之七十以上的时间都花在了预处理数据上(Data Preprocessing),其中特征工程消耗了很多时间。 一般来说,特征工...

2020-05-22 15:43:19 127 0

转载 【持续更新】机器学习特征工程实用技巧大全

https://zhuanlan.zhihu.com/p/26444240 (2018/2/6 更新:修改了部分名词的翻译) 与其说是教程类的科普,不如说是一篇经验向的个人笔记,所以细节上比较懒。其实,我更打算把这篇文章做成一个索引,能够引用原版文档的就引用文档,尽量不重复翻译,毕竟各类文...

2020-05-22 15:41:08 35 0

转载 平均数编码:针对高基数定性特征(类别特征)的数据预处理/特征工程

https://zhuanlan.zhihu.com/p/26308272 (在另一篇文章中,我正在汇总所有已知的数据挖掘特征工程技巧:【持续更新】机器学习特征工程实用技巧大全 - 知乎专栏。) 前言 读完sklearn.preprocessing所有函数的API文档之后,基础的特征工程就可...

2020-05-22 15:38:34 244 0

转载 转载:SQL Server跨服务器操作数据库

https://baijiahao.baidu.com/s?id=1601340639397887562&wfr=spider&for=pc 今天给大家来分享一下跨服务器操作数据库,还是以SQL Server的管理工具(SSMS)为平台进行操作。 什么是跨服务器操作? 跨服务...

2020-05-22 14:59:42 43 0

转载 通过PCA选择合适降维维度

PCA的作用有:降低特征值维度,提高了计算效率,但丢失了信息。信息在PCA中我们用方差来表示。 一、PCA参数、属性简介 1.介绍PCA方法中参数: n_components: 默认值为保留所有特征值维度,即不进行主成分降维 取大于等于1的整数时,即指定我们希望降维后的维数; 取0-1...

2020-05-21 21:57:46 65 0

转载 PCA降维之前为什么要先标准化?

PCA降维之前为什么要先标准化? 统计/机器学习 数据预处理 数据降维 浏览次数:18547 分享 10 当数据维数很高的时候,我们可以用PCA降维,但是降维前通常我们要对数据进行标准化,为什么要这样做?这有什么好处? 机器小白 2017-03-21 13:25 4个回答...

2020-05-21 21:33:36 180 0

转载 转载:python之Dataframe:多级表头和索引灵活的处理(一)

https://www.jianshu.com/p/f72bc249e872 DataFrame俗称数据框,和一般的Excel表格没有多大区别,一般包含索引(行)和表头(列),在python中,由pandas包提供。 这是一个最简单的数据框类型,只包含一级索引和一级表头 如果你的python还没有...

2020-05-21 18:38:18 91 0

原创 网上收集的使用OneHotEncoder一些要点

1、获取编码后的特征名称 https://blog.csdn.net/cjm083121/article/details/94064950 将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。离散特征进行one-hot编码后,编码后的特征,其实每一维度的特征都可以看做是连续的特征。...

2020-05-20 17:35:37 107 0

原创 pandas的get_dummies和sklearn OneHotEncoder 区别

pandas中的get_dummies和sklearn中的OneHotEncoder()的结果是一样的。 但是区别就在于,OneHotEncoder()适用于多个集合的情况,如:训练集和测试集;而get_dummies只适用于一个数据集情况。 sklearn中的OneHotEncoder()在训练...

2020-05-20 16:59:08 9 0

原创 jupyter notebook 遇到_xsrf argument missing from POST 问题的处理

处理方法: 在同一内核上打开另一个笔记本 或者转到/ tree aka Jupyter主页,然后刷新浏览器。

2020-05-20 15:32:46 48 0

转载 SkLearn中MLP结合GridSearchCV调参

Multi-layer Perceptron即多层感知器,也就是神经网络,要说它的Hello world,莫过于识别手写数字了。如果你已经了解它的原理并尝试过自己写一个后就可以试用下通用的类库,好将来用在生产环境。下面是使用SkLearn中的MLPClassifier识别手写数字,代码是在Pyth...

2020-05-05 13:48:59 51 0

转载 XGBoost参数调优完全指南(附Python代码)

XGBoost参数调优完全指南(附Python代码) 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中一部分特征做的,具体数值跟文章中不一样,反而可以帮助理解文章。所以大家其实也可以小小修改一下...

2020-05-05 13:30:57 83 0

转载 XGBoost 重要关键参数及调优步骤

本篇对XGBoost主要参数进行解释,方括号内是对应scikit-learn中XGBoost算法模块的叫法。 提升参数 虽然有两种类型的booster,但是我们这里只介绍tree。因为tree的性能比线性回归好得多,因此我们很少用线性回归。 eta [default=0.3, alias: le...

2020-05-04 22:56:32 57 0

原创 win7+anaconda3安装tensorflow2.1的正确顺序

step1、安装matplotlib(会带出numpy的安装); step2、安装tensorflow(会带出pandas的安装)

2020-05-02 22:46:41 140 0

转载 张量的维数和张量的形状怎么看呢?

张量的维数和张量的形状怎么看呢? 维度要看张量的最左边有多少个左中括号,有n个,则这个张量就是n维张量 [[1,3],[3,5]]最左边有两个左中括号,它就2维张量;[[[1,2],[3,4]],[[1,2],[3,4]]]最左边有三个左中括号,它就3维张量 形状的第一个元素要看张量最左边的中...

2020-05-02 22:07:10 43 0

转载 Python机器学习(六)-XGBoost调参

https://cloud.tencent.com/developer/news/237749 当了建了一个模型,为了达到最佳性能,通常需要对参数进行调整。这样你的模型,才会像一碗加了辣油精心调制过的香气扑鼻的馄饨。所以 调参 = 调料? (一)。XGBoost 及调参简介 XGBoost(eXt...

2020-05-02 20:56:38 28 0

转载 KNN算法常见问题总结

1 k近邻法(k-nearest neighbor, kNN) 给定测试实例,基于某种距离度量找出训练集中与其最靠近的k个实例点,然后基于这k个最近邻的信息来进行预测。 通常,在分类任务中可使用“投票法”,即选择这k个实例中出现最多的标记类别作为预测结果;在回归任务中可使用“平均法”,即将这k个实...

2020-04-30 13:53:01 487 0

转载 ValueError: Must provide either V or VI for Mahalanobis distance

https://stackoverflow.com/questions/51766963/tsne-from-sklearn-with-mahalanobis-metric TSNE from sklearn with mahalanobis metric Ask Question Asked 1...

2020-04-29 06:56:02 141 0

原创 .ipynb格式的module转换成.py文件

在写好的.ipynb文件的最后新建一个cell,写入代码如下: try: !jupyter nbconvert --to python file_name.ipynb # python即转化为.py,script即转化为.html # file_name.ipynb即当前module的文件名 ex...

2020-04-28 21:50:00 19 0

原创 verbose:日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。

verbose:日志冗长度,int:冗长度,0:不输出训练过程,1:偶尔输出,>1:对每个子模型都输出。

2020-04-28 18:14:08 20 0

转载 XGBoost 重要参数(调参使用)

XGBoost 重要参数(调参使用) 数据比赛Kaggle,天池中最常见的就是XGBoost和LightGBM。 模型是在数据比赛中尤为重要的,但是实际上,在比赛的过程中,大部分朋友在模型上花的时间却是相对较少的,大家都倾向于将宝贵的时间留在特征提取与模型融合这些方面。在实战中,我们会先做一个ba...

2020-04-27 23:45:54 218 0

转载 Numpy中numpy.rollaxis函数的理解

Numpy中numpy.rollaxis函数的理解 在学习Numpy的过程中卡在了这个古怪的函数好一阵子不明其意,研究一番后终于有一些醒悟,把理解贴出来以后备用。 要想理解这个函数首先要理解在Numpy中是如何输出一个多维数组的。Numpy在这里把维数说成“轴”,从0轴到n轴递增。其实这就跟直角坐...

2020-04-23 17:00:02 20 0

转载 numpy.rollaxis()详解

numpy.rollaxis()详解 转载PMPWDF 最后发布于2019-07-13 17:14:58 阅读数 198 收藏 展开 numpy.rollaxis(a, axis, start=0) 向后滚动指定的轴,直到它位于给定位置。 参数: a:ndarray 输入数组。 axis:int...

2020-04-23 16:58:29 12 0

转载 关于tensorflow入门keras的Fashion-mnist数据集无法下载的解决方法

关于tensorflow入门keras的Fashion-mnist数据集无法下载的解决方法 原创笔岸柳影 最后发布于2020-03-25 17:39:43 阅读数 150 收藏 展开 文章目录 问题描述(声明一下,本博客采用包含keras的tensorflow包) 解决方法(建议至少运行过一次l...

2020-04-22 13:02:41 109 1

转载 关于 win10 系统中 Anaconda3 中修改 Jupyter Notebook 默认启动目录

关于 win10 系统中 Anaconda3 中修改 Jupyter Notebook 默认启动目录 原创Carlous_Chen 最后发布于2018-06-07 21:12:42 阅读数 1054 收藏 展开 目标: 修改Anaconda3中自带的Jupyter Notebook默认启动目录....

2020-04-21 11:14:12 23 0

提示
确定要删除当前文章?
取消 删除