1、有监督 —随机划分训练集和测试集
#划分训练集和测试集
'''
参数说明:
dataSet:输入的数据集
rate:训练集所占比例
train,test:切分好的训练集和测试集
'''
#dataSet传入的是DataFrame形式
def randSplit(dataSet,rate):
l=list(dataSet.index) #提取出索引
random.shuffle(l) #随机打乱索引 索引后面的值并没有改变
dataSet.index=l #将打乱后的索引重新赋值给原数据集
n=dataSet.shape[0] #总行数
m=int(n*rate) #训练集的数量
train=dataSet.loc[range(m),:] #提取前m个记录作为训练集
test=dataSet.loc[range(m,n),:] #剩下的作为测试集
dataSet.index=range(dataSet.shape[0]) #更新数据集的索引 把dataset前面的索引更新为从0开始 前面已经打乱了索引值
test.index=range(test.shape[0]) #更新测试集的索引 把test前面的索引更新为从0开始
return train,test
2、Pandas数据读取
数据类型 | 说明 | Pandas读取方法 |
---|---|---|
csv、tsv、txt | 用逗号分割、tab分割的纯文本文件 | pd.read_csv |
excel | 微软xls或者xlsx文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
3、Pandas知识点框架(粗略)
网盘地址:(png+xmind)
链接
提取码:ubv1
课程详细地址:
Pandas入门
4、PyCharm接入CST
import sys
sys.path.append(r"D:\Program Files (x86)\CST Studio Suite 2020\AMD64\python_cst_libraries")
验证:
import cst
print(cst.__file__)
输出结果:
即为安装成功
参考