本阶段工作内容
一、了解甜橙金融杯大数据竞赛并报名,下载数据。
二、配置本机环境。
因为使用的是Mac系统,所以配置环境相对简单,使用的是python3,以及使用pip3下载实训所需要用到的各种包。使用以下命令即可
sudo pip3 install numpy scipy pandas scikit-learn statsmodels matplotlib xgboost jupyter
三、学习数据挖掘涉及的主要python包。
1. numpy
numpy提供了大量的库函数和操作,主要用于对多维数组执行计算,以及对图像的处理和其他数学运算。
基本操作
- 导入numpy。
import numpy as np
- 声明数组/矩阵,注意,数组下标从0开始,和Matlab从1开始不一样。
array = np.array([1,2,3,4])
array = np.array([1,2,3,4],[1,2,3,4])
array = np.arange(10)
从0到9的数组。
array = np.array(0, 10, 2)
从0开始,每个元素间隔2,直到10(不包括10)
array = np.linspace(0, 10, 5)
0到10的5个等分数据,包括0和10。
- 创建全0数组,全1数组,随机数组&