1.pandas 数据加载
import pandas as pd
data = pd.read_csv('file.csv',sep=',',decimal='.',header=None,nmaes=['col_name1','col_name2','col_name3'])
#sep参数代表的是csv 文件中的数据分隔符,decimal是小数点占位符,header是否有标题,names 代表每列数据的列名。
data.columns #输出数据的列名
data.col_name1 #输出col_name1列的数据
data[['col_name1','col_name2']] #col_name1和col_name2列的数据
#处理空白数据即NAN数据
data.fillna(data.mean(axis=0)) #用每列的均值去替换NAN
#axis=0 表示处理每行,axis=1表示处理每列
#取出1-4行的数据
data.loc[1:5]
#删除第5行数据
data.drop(data.index[4],inplace=True)
#删除2列
data.drop(data[1],axis=1,inplace=True)
#取出4列5行的数据
data[3][4]
#当数据集过于庞大的时候可以用遍历容器的形式去存储数据
data = pd.read_csv('file.csv',sep=',',decimal='.',header=None,nmaes=['col_name1','col_name2'],iterator=True)
data.get_chunk(10) #获取前10行的数据
data['col_name1']>6.0 #如果成立返回True
data1 = data.groupby('col_name1').mean()#先按照col_names 分组然后求每一组的平均值
data.sort_index(by='col_name1') #按照col_name 排序
from sklearn import datasets
data = datasets.load_iris() #从库中直接加载数据集
data.feature_names #输出数据集的列名
data.data #输出数据
#将数据转换为固定格式
data = pd.DataFrame(data.data,columns=data.feature_names)
2.下面的导入将帮助那些python3特有的代码也能直接在python2中运行
from __futrue__ import (absolute_import,division,print_function,unicode_literals)
from builtins import *
from future import standard_libary
standard_library.install_aliases()
3.查看工具包的版本
import numpy
numpy.__version__
4.升级工具包
pip install -U numpy==1.11.0 #不带版本号默认升级到最新版本
5.在线导入文本测试数据
from sklearn import fetch_20newsgroups
data = fetch_20newsgroups(categories = ['sic.med','sci.space'])
#下载的是数据集中关于医学和空间方面的数据
6.numpy 使用方法
import numpy as np
data = np.array([[1,2,4,5],[1,7,5,4],[2,1,5,7]) #将列表转换为二维narray数据形式
data[1][0] #输出1
data = data.reshape(1,12) #将其改变为一维数组
data = np.arange(9).reshape(3,3)
#生成数组 [[0,1,2],[3,4,5],[6,7,8]]
data = np.linspace(0,10,1) #生成公差为1的等差数列
data = np.logspace(1,8,2) #生成等比数列
data = np.arange(4).reshape(2,2)
data = np.delete(data,0,axis=0)
#表示删除data的每行的第一个元素输出[[1],[4]]
7.help 和 dir函数的使用
list = [1,2,5,4]
dir(list) #返回list 对象的成员方法和属性
help(list.pop) #返回list对象的pop方法的使用方式
8.索引列表
list = [(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]
for k,v in list:
print k
print v
9.安装python库的时候最好用此命令
sudo apt-get install python-matplotlib
10.python 数据可视化文件形式存储
import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('Agg') #这句话的位置只能在这里
import matplotlib.pyplot as plt
data = np.array([105,120,140,154,120,68,147,25])
plt.plot(data)
plt.savefig("/img.jpg")