- 博客(261)
- 资源 (9)
- 收藏
- 关注
原创 特征工程-工业蒸汽量预测-阿里云天池大赛
包含几个大的模块:1、异常值分析-绘制各个特征的箱线图2、归一化3、查看数据分布-绘制KDE分布图4、计算特征相关性,以热力图形式可视化显示和多重共线性分析(计算方差膨胀系数)5、特征降维:(1)特征相关性的初筛,计算相关性系数并筛选大于0.1的特征变量(2)利用PCA方法去除数据的多重共线性,并进行降维
2023-08-29 23:42:41 255
原创 主成分分析法PCA-线性降维-特征降维
主成分分析法是最常用的线性降维方法,主要原理是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此达到使用较少的数据维度来保留较多的原数据点特性的效果。
2023-07-22 22:24:31 416
原创 基于模型的特征选择法SelectFromModel()函数筛选特征简单实战-从糖尿病数据集中基于疾病进展寻找最佳两个特征。
使用SelectFromModel()结合LassoCv基于查找预测从基线开始一年后疾病进展,从糖尿病数据集(由从442名糖尿病患者中收集的10个变量(特征))中筛选出最佳的两个特征。
2023-06-21 00:08:47 329
原创 基于模型的特征选择法SelectFromModel()函数筛选特征-嵌入法-特征选择-特征降维
SelectFromModel(根据重要性权重选择特征)主要采用基于模型的特征选择法,常见的有基于惩罚项的特征选择法和基于树模型的特征选择法。
2023-06-20 23:51:05 654
原创 递归消除特征法RFE筛选特征-包装法-特征选择-特征降维
RFE(Recursive feature elimination):递归消除特征法使用一个基模型(这里使用逻辑回归)来进行多轮训练,每轮训练后,消除若干权值系数的特征,再基于新的特征集进行下一轮训练。
2023-06-20 23:27:29 1280
原创 方差选择法筛选特征-过滤法-特征选择-特征降维
如果一个特征不发散,即方差接近0,就说明样本在这个特征上基本没有差异,这个特征对于样本的区分没有作用,使用方差选择法,计算各个特征的方差,然后根据阈值选择方差大于阈值的特征。
2023-06-20 22:45:48 293
原创 机器学习 7种常用简单的特征处理方法
1.标准化: StandardScaler()2.区间缩放法: MinMaxScaler()3.归一化: Normalizer()4.定量特征二值化: Binarizer()5.定性特征哑编码: OneHotEncoder()6.缺失值填充: SimpleImputer()7.数据转换:(1) 多项式转换: PolynomialFeatures()(2) 对数变换: FunctionTransformer(log1p)
2023-06-05 22:11:16 869
原创 HDFS入门-统计HDFS上文件的词频,然后将统计结果输出到HDFS
需求:统计HDFS上的文件的词频,然后将统计结果输出到HDFS特点:用到了maven管理jar包;核心处理部分封装为接口(可插拔);路径、文件名等变量配置在自定义配置文件中,方便改写;通过反射创建对象(接口);代码结构良好,可插拔等等
2023-06-02 23:11:27 401
原创 数据探索-工业蒸汽量预测-阿里云天池大赛
包含几个大的模块:1、变量箱型图2、采用模型预测的形式找出异常样本3、绘制训练数据集中所有变量的直方图和Q-Q图(查看变量是否符合正态分布)4、绘制KDE分布图,可以查看并对比训练集和测试集中特征变量的分布情况,发现两个数据集中分布不一致的特征变量5、计算变量与target之间的相关性系数并用热力图的形式显示6、根据相关系数筛选特征变量7、做Box-Cox变换,使变量分布更接近正态分布
2023-05-27 22:04:42 245
原创 python 双类别型变量关联性分析-卡方检验chi2()
卡方检验:主要用于两个和两个以上样本率(构成比)及两个二值型离散变量的关联性分析,即比较理论频次与实际频次的吻合程度或拟合程度。
2023-05-03 17:17:58 1068 1
原创 python numpy的ndarray及其创建(特定数组,等差数组,随机数组)
numpy的ndarray及其创建(创建特定数组,等差数组,随机数组)
2023-03-29 11:48:52 1150
原创 sql select集合查询(并union、交intersect和差except操作)
select集合查询:并union、交intersect和差except操作
2023-02-18 10:38:06 312
原创 sql 4种类型的select嵌套查询(父查询、子查询)
4种类型的select嵌套查询:1.带有in谓词的子查询;2.带有比较运算符的子查询;3.带有any(some)或all谓词的子查询;4.带有exists谓词(存在量词)的子查询
2023-02-17 23:30:34 2252
HDFS入门项目-使用HDFS JAVA API完成统计HDFS上的文件的词频,然后将统计结果输出到HDFS.rar
2022-01-23
Dev-c++_5.11_TDM-GCC_4.9.2.zip压缩包下载链接.txt
2021-01-17
googlenews-vectors-negative300.bin.gz压缩包下载链接.txt
2021-01-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人