【数据分析】基于python技术实现数据挖掘必备流程

最近在做数据挖掘的任务,特整理数据挖掘的流程如下。

目录

1.数据获取

2.数据读取

3.数据清洗及缺失值处理

4.数据转换

5.特征提取

6.划分训练集和测试集

7.构建模型并训练模型


1.数据获取

一般是通过网络上的csv、xlsx、xls、txt等格式的文件,当然也可以使用网络爬虫爬取网络上的数据。这个没有特别需要讲述的。

2.数据读取

数据读取可以使用python编程工具的pandas库,读取便捷并且操作便捷。

df=pd.read_csv('文件路径')

3.数据清洗及缺失值处理

数据清洗包括去除没有用的属性,同时包括对数据集的缺失情况的确定。对于有缺失值的属性列,采用相应的办法处理(直接删除、众数替换、平均数替换)。

4.数据转换

数据转换主要是将文本类型的值转化为数值类型。

df.loc[df['属性名称'] =='待替换值','属性名称']=新值

5.特征提取

特征提取,对所有属性中对预测变量有直接影响的特征可以作为后面模型中的特征。可以删除那些没有任何作用的属性,比如编号,以及某些属性对于所有样本的值是一样的。

删除属性的方式是:

del df['属性名称']

6.划分训练集和测试集

#划分数据集,分成训练集和测试集两部分
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings("ignore")
y_all = df['属性名称']
x_all = df.drop(['属性名称'], axis=1)
x_train, x_test, y_train, y_test = train_test_split(x_all, y_all, test_size=0.20, random_state=23)#划分数据,20%做测试数据,80%做训练数据

7.构建模型并训练模型

模型有很多种,这里随便拿一个模型做示范,SVC支持向量机模型。

#支持向量机
def SVCModel(x_train,y_train,x_test,y_test):
    from sklearn.svm import SVC
    svc = SVC()
    svc.fit(x_train, y_train)
    Y_pred = svc.predict(x_test)
    accuracy_score = svc.score(x_train, y_train)
    #支持向量机模型在测试样本上的预测得分
    print('支持向量机模型'+str(accuracy_score))

 

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

仰望星空€

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值