《机器学习及实践》学习笔记（二）

最新推荐文章于 2021-10-09 20:06:45 发布

ninety_two

最新推荐文章于 2021-10-09 20:06:45 发布

阅读量173

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/ninety_two/article/details/82055731

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#使用sklearn.cross_valiation里的train_test_split模块用于分割数据
from sklearn.cross_validation import train_test_split
#随机采样25%的数据用于预测，剩下75%用于构建训练集合
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],test_size=0.25,random_state=33)
#查验训练样本的数量和类别的分布
y_train.value_counts()
y_test.value_counts()

函数说明：

Series：

Series和DataFrame是pandas中的两个基本数据结构。具体用法如下。

情况一：

import pandas as pd
s=pd.Series([1,2,3,4,5],index=['a','b','c','f','e'])
print (s)
a    1
b    2
c    3
f    4
e    5
dtype: int64

情况二：

import pandas as pd
s=pd.Series({'a':3,'b':4,'c':5,'f':6,'e':8})
print (s)
a    3
b    4
c    5
e    8
f    6
dtype: int64

value_counts():

value_counts()是用于统计数据出现频率。

import pandas as pd
import 
data=pd.Series(['python','java','python','php','php','java','python','java'])
print(data.value_counts())
java      3
python    3
php       2
dtype: int64

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ninety_two

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《机器学习及实践》学习笔记（二）

#使用sklearn.cross_valiation里的train_test_split模块用于分割数据from sklearn.cross_validation import train_test_split#随机采样25%的数据用于预测，剩下75%用于构建训练集合x_train,x_test,y_train,y_test=train_test_split(data[column_nam...
复制链接

扫一扫