dividedata.py-20170826

vicky428

于 2019-07-16 18:28:26 发布

阅读量104

点赞数

分类专栏： py－地图－pca 划分数据集线性回归

本文链接：https://blog.csdn.net/vicky428/article/details/95894324

版权

py－地图－pca 划分数据集线性回归专栏收录该内容

9 篇文章 0 订阅

订阅专栏

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sat Aug 26 16:37:28 2017

@author: vicky
"""

from sklearn.cross_validation import train_test_split
#x为数据集的feature熟悉，y为label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

#X:含label的数据集：分割成训练集和测试集
#test_size:测试集占整个数据集的比例
def trainTestSplit(X,test_size=0.3):
    X_num=X.shape[0]
    train_index=range(X_num)
    test_index=[]
    test_num=int(X_num*test_size)
    for i in range(test_num):
        randomIndex=int(np.random.uniform(0,len(train_index)))
        test_index.append(train_index[randomIndex])
        del train_index[randomIndex]
    #train,test的index是抽取的数据集X的序号
    train=X.ix[train_index] 
    test=X.ix[test_index]
    return train,test

vicky428

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
dividedata.py-20170826

#!/usr/bin/env python3# -*- coding: utf-8 -*-"""Created on Sat Aug 26 16:37:28 2017@author: vicky"""from sklearn.cross_validation import train_test_split#x为数据集的feature熟悉，y为label.x_train, x_...
复制链接

扫一扫

专栏目录