2/8 iris_data_analysis

下午看了下lynda关系型数据库的课,instructor很有激情但是废话太多了,中途弃。还是找点tutorial pdf来看吧orz。

晚上简单做了个鸢尾花数据分析的Jupyter notebook,用的模型是K Nearest Neighbor。

from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn import metrics
from sklearn.cross_validation import cross_val_score
import numpy as np

iris = datasets.load_iris()
X = iris.data[:, :4] 
y = iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=4)#X=feature y=label

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print(metrics.accuracy_score(y_test, y_pred))

k_range = list(range(1, 31))
k_scores = []
for k in k_range:
    knn = KNeighborsClassifier(n_neighbors=k)
    scores = cross_val_score(knn, X, y, cv=10, scoring='accuracy')
    k_scores.append(scores.mean())
print(k_scores)

plt.plot(k_range, k_scores)
plt.xlabel('Value K for KNN')
plt.ylabel('Cross_val_score')

最后的plot长这样:

可见K=20的时候 cross validation 得分最高0.98且模型最简单。(K越大模型越简单)

转载于:https://www.cnblogs.com/lowkeysingsing/p/8433587.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值