自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 问答 (2)
  • 收藏
  • 关注

原创 Python 聚类算法在矢量量化案例详解

关注微信公共号:小程在线关注CSDN博客:程志伟的博客KMeans算法将一组N个样本的特征矩阵X划分为K个无交集的簇,直观上来看是簇是一组一组聚集在一起的数据,在一个簇中的数据就认为是同一类。簇就是聚类的结果表现。簇中所有数据的均值 通常被称为这个簇的“质心”(centroids)。在一个二维平面中,一簇数据点的质心的横坐标就是这一簇数据点的横坐标的均值,质心的纵坐标就是这一簇数...

2020-03-30 23:06:58 3215

原创 Python 评分卡学会这篇文章就够了

关注微信公共号:小程在线关注CSDN博客:程志伟的博客基于这样的思想,我们总结出我们对一个特征进行分箱的步骤:1)我们首先把连续型变量分成一组数量较多的分类型变量,比如,将几万个样本分成100组,或50组2)确保每一组中都要包含两种类别的样本,否则IV值会无法计算3)我们对相邻的组进行卡方检验,卡方检验的P值很大的组进行合并,直到数据中的组数小于设定的N箱为止4)我们让一个特征分别...

2020-03-30 11:08:56 1130

原创 Python 评分卡之数据预处理(重复值、填补缺失值、异常值与数据不平衡)

关注微信公共号:小程在线关注CSDN博客:程志伟的博客评分卡之数据预处理:重复值、填补缺失值、异常值与数据不平衡在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构)造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,...

2020-03-29 15:26:23 2750

原创 Python 深入理解逻辑回归

关注微信公共号:小程在线关注CSDN博客:程志伟的博客其数学目的是求解能够让模型对数据拟合程度最高的参数 的值,以此构建预测函数 ,然后将特征矩阵输入预测函数来计算出逻辑回归的结果y。注意,虽然我们熟悉的逻辑回归通常被用于处理二分类问题,但逻辑回归也可以做多分类。”损失函数“:来衡量参数为 的模型拟合训练集时产生的信息损失的大小,并以此衡量参数 的优劣。如果用一组参数建模后,模型在训练...

2020-03-28 21:21:43 1397

原创 Python 学好PCA干掉特征选择

Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.IPython 7.6.1 -- An enhanced Interactive Python.1. 调用库和模块...

2020-03-27 17:30:37 2320

原创 Python 三种方法对数据进行特征选择

关注微信公共号:小程在线关注CSDN博客:程志伟的博客特征选择:Filter过滤法、Embedded嵌入法、Wrapper包装法特征选择选取高维度进行数据处理##############特征选择 feature_selection#################import pandas as pddata = pd.read_csv(r"H:\程志伟\python\digit...

2020-03-26 15:15:21 6276

原创 Python 数据归一化、数据标准化、缺失值处理、处理分类型数据、处理连续型数据

关注微信公共号:小程在线关注CSDN博客:程志伟的博客Python 3.7.3 (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)]Type "copyright", "credits" or "license" for more information.IPython 7.6.1 -- An enhanced In...

2020-03-24 22:05:30 2795

原创 Python 利用随机森林算法对缺失值填补

关注微信公共号:小程在线关注CSDN博客:程志伟的博客导入需要的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_bostonfrom sklearn.impute import SimpleImputerfrom s...

2020-03-14 18:59:44 9590 1

原创 Python 随机森林的实现与参数优化

关注微信公共号:小程在线关注CSDN博客:程志伟的博客通过n_estimators,random_state,boostrap和oob_score这四个参数了解袋装法的基本流程和重要概念。estimators_ 和 .oob_score_ 这两个重要属性。随机森林也有.feature_importances_这个属性。Python 3.7.3 (default, Apr 2...

2020-03-14 18:29:29 3762

原创 Python 决策树的建树、剪枝与优化

关注微信号:小城在线关注CSDN博客:程志伟的博客八个参数:Criterion,两个随机性相关的参数(random_state,splitter),五个剪枝参数(max_depth,min_samples_split,min_samples_leaf,max_feature,min_impurity_decrease)一个属性:feature_importances_四个接口:fit...

2020-03-13 19:18:01 1322

原创 R语言 Kmeans聚类、PAM聚类、层次聚类、EM聚类

关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1Kmeans函数:kmeans聚类pam函数:PAM聚类hclust函数:层次聚类cutree函数:层次聚类解Mclust函数:EM聚类mclustBIC函数:EM聚类> ##############对模拟数据的K-Means聚类> setwd('G:\\R语言\\大三下半年\...

2020-03-10 21:02:35 9421 2

原创 R语言 SVM(线性可分、线性不可分、多分类)

关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library("e1071", lib.loc="H:/Program Files/R/R-3.6.1/library")Warning message:程辑包‘e1071’是用R版本3.6.2 来建造的#####...

2020-03-08 21:41:12 8471 2

原创 R语言 神经网络neuralnet和nnet

关注微信公共号:小程在线关注CSDN博客:程志伟的博客neuralnet():建立B-P网络gwplot函数:神经网络变量重要性的可视化图形compute函数:利用神经网络进行预测nnet函数:建立B-P网络> setwd('G:\\R语言\\大三下半年\\数据挖掘:R语言实战\\')> library("neuralnet")> BuyOrNot&l...

2020-03-05 11:59:32 16240 2

原创 R语言 决策树、bagging、boosting、随机森林

关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1rpart():建立分类回归树rpart.plot():可视化分类回归树rpart.control():设置分类回归树的参数printcp():查看复杂度参数CPplotcp():可视化复杂度参数CPprune():得到决策树的修剪子树bagging():利用袋装技术建立组合预测模型pr...

2020-03-03 15:39:21 6961 10

原创 R语言 K最近邻算法2

关注微信公共号:小程在线关注CSDN博客:程志伟的博客R版本:3.6.1K-最近邻算法:a.距离:闵可夫斯基距离、欧式距离、绝对距离、切比雪夫距离、夹角余弦距离b.临近个数:1-邻近法:以一个最近距离表示该类别,错误率不会高于普通贝叶斯的两倍。旁置法:70%的训练集和30%的测试集,适合样本大的情况。留一法:抽取一个样本作为测试集,这个过程需要重复N次,取平均值...

2020-03-01 19:40:01 3625

VMware安装保姆级教程

VMware安装保姆级教程,从0开始搭建,适用于学习Centos/liunx等人员,适用于大数据,安装hadoop/hive等

2022-05-12

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除