python数据分析与挖掘实战(1)
清华大学开源镜像站:pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
1.numpy基本操作
代码列表:
import numpy as np
a = np.array([2, 0, 1, 5])
print(a)
print(a[:3]) #切片,引用前三个数字
print(min(a))
a.sort()
print(a)
b = np.array([[1, 4, 9],[4, 5, 6]]) #需要用中括号括起数组的每行
print(b*b)
列表可以被修改,而元组不可以修改。
若要复制一个列表a,不可以使用b=a,这样b只是a的一个别名;应使用b=a[:]
2.Matplotlib
Matplotlib.pypolt.plot()用法:链接
代码列表:
import numpy as np
import matplotlib.pyplot as plt
x = np.linspace(0, 10, 1000) #np.linsapce(start, stop, num),num默认为50,表示把1到10分成1000份
y = np.sin(x)+1
z = np.cos(x**2)+1
plt.figure(figsize=(8,4)) #设置作图面板的大小
plt.plot(x, y, label='$\sinx+1$', color='red', linewidth = 2 ) #横坐标,纵坐标,图例中的标记,线条颜色,线条宽度
plt.plot(x, z, 'b--', label='$\cosx^2=1$')
plt.xlabel('Time(s) ')
plt.ylabel('Volt')
plt.title('a simple example')
plt.ylim(0,2.2) #ylimit纵轴大小
plt.legend() #显示图例
plt.show()
作图结果:
附:解决中文标签和符号无法显示负号的问题
plt.rcParams[ 'font.sans-serif' ] = [ 'SimHei' ]
plt.rcParams[ 'axes.unicode_minus' ] = False
3.Pandas
建立在numpy之上,是python最强大的数据分析和探索工具。
pandas基本的数据结构是Series序列和DataFrame二维表格,每一列都是一个series。
简单用法:链接
import pandas as pd
s = pd.Series([1, 2, 3], index = ['a', 'b', 'c'])
d = pd.DataFrame([[1, 2, 3], [4, 5, 6]], columns=['a', 'b', 'c'])
d2=pd.DataFrame(s)
d.head() #预览前5行数据
print(d)
d.describle()