数据采集-》数据预处理-》数据的清洗、建模以及测试
数据采集:调查问卷、网络信息收集整理
数据预处理:工具将单位统一、格式调整
数据的清洗:缺失值、异常值删减
建模以及测试:数据算法
1.numpy库
用于高性能科学计算和数据分析,是常用的高级数据分析库的基础包
numpy对矩阵的操作
import numpy as np
arr1 = np.array([2,3,4])
print(arr1)
print(arr1.dtype)
arr2 = np.array([1.2,2.3,3.4]) #数组和标量的计算
print(arr2)
print(arr2.dtype)
print(arr2*10)
data = [[1,2,3],[4,5,6]] #定义多维数组
arr3 = np.array(data) #转换成二维数组
print(arr3)
print(np.zeros(10)) #定义一个一维数组,数据类型中的值全部为0
print(np.zeros([3,5])) #定义一个三行五列的数组,并且数组的值全部为0
print(np.ones([4,6]))
print(np.empty(([2,3,4])))
2.Numpy数组的索引和切片
arr4 = np.arange(10) #一维数组
print(arr4)
print(arr4[5 : 8]) #切片
arr4[5:8] = 10 #对切片直接赋值
print(arr4)
arr_slice = arr4[5:8].copy(