机器学习
文章平均质量分 72
机器学习
缦旋律
沉迷磕CP并努力敲代码的小陈
展开
-
因子分析与主成分分析、回归分析的不同
因子分析与主成分分析:主成分分析:原始变量的线性组合表示新的综合变量,即主成分。因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。因子分析与回归分析:因子分析中的因子是一个比较抽象的概念,而回归因子有非常明确的实际意义。...原创 2021-06-21 09:29:39 · 2019 阅读 · 0 评论 -
隐马尔可夫模型(HMM)and维比特算法
之前手写的笔记,害怕哪天找不到了,就先拍照放上来,以后有时间再整理成电子版。(write to myself:看不懂步骤的可以先去看每个后面的例子~)原创 2021-06-10 16:58:15 · 168 阅读 · 0 评论 -
mooplab2021数据建模大赛(桂林银行杯)
数据集不能下载到本地,所以本文只是做一个数据处理和建模过程的记录。比赛结果:线下auc:0.859,线上auc:0.8077。1.数据初步探索结果训练集中,8375个卡号,但只有8361个客户。acct:(此表含卡号、客户号和最终的label)只要x_cat3取值为482 x_date1、2就缺失;x_cat3只有21值不为482,此时x_date1和x_date2完全一样;基于上述情况,考虑只保留x_cat3,取值为482的设为0,其他为1,并且删除x_date1、2x_date1 x_d原创 2021-05-28 14:18:42 · 2027 阅读 · 14 评论 -
XGB目标函数+重要参数讲解+实例(含Python详细代码)
XGB目标函数、重要参数讲解+实例(含详细Python代码)原创 2021-05-09 17:20:10 · 3240 阅读 · 1 评论 -
RidgeCV及LassoCV
1.RidgeCValphas = np.arange(1,1001,100) Ridge_ = RidgeCV(alphas=alphas#,scoring="neg_mean_squared_error" ,store_cv_values=True #,cv=5 ).fit(x, y)print(x.shape) #有20640个sampleprint(Ridge_.cv_values_.shape) #因为cv默认为留一验证,所以为20640,每一行代表一个验证集验证的结果;因原创 2021-05-07 10:53:18 · 2000 阅读 · 0 评论 -
岭回归如何解决多重共线性
Lasso:lasso的解为何比较稀疏?假设ridge和lasso都有解,即wridge 和 wlasso 都存在。在wridge 中,(XT X+αI)-1 不为0,若某个wi为0,只能寄希望于XTy;而在wlasso 中,(XT X)-1 不为0,可以调整α使(XTy-αI2\frac{αI}{2}2αI)某一维为0,那么wi 就为0,所以lasso的解比较稀疏。...原创 2021-05-04 15:22:22 · 944 阅读 · 0 评论 -
R^2(可决系数)为负分析
在Python中验证,只有线性回归时TSS=RSS+ESS,Ridge和Lasso时,TSS都大于RSS+ESS。原创 2021-05-04 15:04:20 · 2483 阅读 · 0 评论 -
SVM
1.SVM的基本问题在样本空间中,划分超平面(又称为决策边界)可以通过如下线性方程表示:wTx+b=0w^ Tx+b =0wTx+b=0决策边界位于两条虚线超平面的中间,对于位于虚线超平面上的点(称为支持向量),有w⋅x+b=k,w⋅x+b=−kw·x+b=k,w·x+b=-kw⋅x+b=k,w⋅x+b=−k两个表达式同时除以k,则可以得到:w⋅x+b=1w⋅x+b=−1w·x+b=1 w·x+b=-1w⋅x+b=1w⋅x+b=−1以上就是两条虚线超平面的表达式,1和-1原创 2021-04-30 09:22:49 · 134 阅读 · 0 评论 -
混淆矩阵及常用评价指标介绍
混淆矩阵及常用评价指标介绍,roc曲线绘制,实例介绍,超详细代码原创 2021-04-29 14:11:46 · 2396 阅读 · 0 评论 -
kmeans中K的选择以及矢量量化使用
如何用评价指标选择Kmeans中合适的超参数K,以及Kmeans的矢量量化使用。原创 2021-04-25 10:35:25 · 610 阅读 · 0 评论 -
银行评分卡
银行评分卡制作流程代码详细介绍;实例分析原创 2021-04-21 19:32:17 · 2615 阅读 · 0 评论 -
分箱二
import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号model_data = pd.read_csv('model_data.csv',index_co原创 2021-04-20 19:03:37 · 228 阅读 · 0 评论 -
分箱介绍及举例详解
文章目录1.根据IV值确定最佳分箱个数2.根据最佳分箱个数进行分箱,并用各箱woe值替换元数据2.1 进行分箱2.2 计算各箱woe值2.3 使用woe值替换原始数据1.根据IV值确定最佳分箱个数import sklearnimport numpy as npimport pandas as pdimport scipyimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签pl原创 2021-04-20 16:06:41 · 6703 阅读 · 4 评论 -
PCA+SVD降维:完整代码+实例分析
文章目录1.引例:鸢尾花数据集降维及可视化2.PCA重要参数、属性、方法2.1 重要参数补充知识点:SVD2.2 重要属性2.3 重要方法3.使用PCA降噪4.使用PCA后对分类效果的影响4.1 pca+rf4.2 pca+knnimport warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt原创 2021-04-15 10:59:14 · 2856 阅读 · 0 评论 -
特征选择
特征选择(feature selection):、过滤法(filter)、嵌入法(embedded)、包装法(wrapper)原创 2021-04-13 11:31:31 · 357 阅读 · 0 评论 -
xgboost
文章目录1.EDA及数据预处理2.初步建模3.查看各变量重要性4.调参重要知识点1. XGBoost的重要参数2. XGBoost原理粗略讲解1.EDA及数据预处理## 基础函数库import numpy as np import pandas as pd## 绘图函数库import matplotlib.pyplot as pltimport seaborn as sns#导入需要用到的数据集data = pd.read_csv('train.csv')data.head()原创 2021-03-25 17:14:44 · 1574 阅读 · 0 评论 -
逻辑回归
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.linear_model import LogisticRegression二分类x_features = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])y_label = np.array([0, 0, 0,原创 2021-03-24 14:07:56 · 133 阅读 · 0 评论