《python数据挖掘入门与实践》笔记2

这一章的主要内容是使用scikit-learn估计器来实现分类,实现的算法是KN近邻算法。

近邻算法可能是标准数据挖掘算法中最为直观的一种。为了对新个体进行分类,它查找训练集,找到与新个体最相似的那些个体,看看这些个体大多属于哪个类别,就把新个体分到哪个类别。

import os
import numpy as np
import csv
#文档的格式为csv格式,所以需要导入csv的库。下面会用到来读取数据
data_filename="ionosphere.txt"

#申请数组用于储存数据和分类情况
X=np.zeros((351,34),dtype='float')
Y=np.zeros((351,),dtype='bool')

#with open() as . 用法:
#with open('t1.txt','r') as input1,open('t2.txt','r') as input2.
#data1=input1.readlines()

with open(data_filename,'r') as input_file:
reader=csv.reader(input_file) 

#enumerate(). 枚举,遍历.

for i,row in enumerate(reader):
    data=[float(datum) for datum in row[:-1]]
    X[i]=data
    Y[i]=row[-1]=='g'

#将数据分为两个集合,训练集和测试集。
from sklearn.cross_validation import train_test_split
X_train,X_test,Y_train,Y_test=train_test_split(X,Y,random_st
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值