【python】对癌症数据进行特征工程，提升lr模型的准确率（特征工程及模型聚合）

Htht111

已于 2022-07-15 15:59:51 修改

阅读量679

点赞数

分类专栏： python 文章标签： python 机器学习 sklearn

于 2022-07-15 15:55:03 首次发布

HpaxlY

本文链接：https://blog.csdn.net/kin_16/article/details/125801536

版权

本文介绍如何使用Python对癌症数据进行特征工程，包括数据加载、缺失值处理、方差过滤和皮尔斯相关系数分析，最终通过这些预处理步骤优化逻辑回归（LR）模型的准确性。

摘要由CSDN通过智能技术生成

头文件：

import pandas as pd
# 众数
from sklearn.datasets import load_breast_cancer
from sklearn.feature_selection import VarianceThreshold
from sklearn.impute import SimpleImputer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder,StandardScaler
from sklearn.neighbors import KNeighborsRegressor
from scipy.stats import pearsonr
from sklearn.model_selection import GridSearchCV, cross_val_score
import numpy as np

1、加载数据

# 1.加载数据
cancer_data=load_breast_cancer()
# 特征数据
feature_data=cancer_data.data
print(type(feature_data))
# 标签数据
label_data=cancer_data['target']

可知数据为numpy.ndarray类型
在这里插入图片描述
转化为dataframe类型，添加列名

# 2. 空值（缺失值）处理
#转化为dataframe类型，添加列名
df=pd.DataFrame(feature_data,columns=cancer_data['feature_names'])
print(df.head(),type(df))

在这里插入图片描述

2、缺失值处理

（1）查看是否有空值

print(df.isnull().sum

最低0.47元/天解锁文章

Htht111

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【python】对癌症数据进行特征工程，提升lr模型的准确率（特征工程及模型聚合）

【python】对癌症数据进行特征工程，提升lr模型的准确率（特征工程及模型聚合）
复制链接

扫一扫

专栏目录