利用svm算法实现癌症的诊断分类

该文介绍了利用SVM算法进行癌症诊断分类的方法,通过数据预处理、特征选择和模型训练,最终在测试集上获得了超过90%的准确率。SVM寻找最大边缘超平面以实现最佳分类,对非线性问题有高准确性。
摘要由CSDN通过智能技术生成

利用svm算法实现癌症的诊断分类

一, 研究背景

癌症——由DNA变异引起的细胞恶性增生,是全球第二大死因,在2018年带走了估计约960万人的生命,占全球全年死亡人数的六分之一。基于组学数据的癌症预防和诊疗研究,对于提升人类的健康和福祉具有重要意义。

大数据挖掘是研究癌症的重要途径,有助于在分子水平上洞察癌变机制,为治疗、用药、预后监测提供帮助。

二,算法原理

 

设给定的数据集D为 (X1, y1), …, (X|D|, y|D|), 其中Xi是训练 元组,具有相关联的类标号yi,可以画出无限多条分离直线(或超平面)将两种不同类型 的元组分开,需要找出“最好的”那一条,对先前未见到的元组具有最小分类误差的那一条,SVM要搜索具有最大边缘的超平面,即最大边缘超平面

三,算法的实现

1加载数据源

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn import metrics
from sklearn.preprocessing import StandardScaler

读取数据

data = pd.read_csv("./data.csv")

2、数据探索

查看数据的基本情况:可以看到各字段数据没有缺失

data.info()

<class 'pandas.core.frame.DataFrame'>

RangeIndex: 569 entries, 0 to 568

Data columns (total 32 columns):

id                         569 non-null int64

diagnosis                  569 non-null object

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值