python 杂记

最新推荐文章于 2022-12-13 15:29:18 发布

ALWAYS_FANG

最新推荐文章于 2022-12-13 15:29:18 发布

阅读量267

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/qq_38120760/article/details/88091340

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.pandas 数据加载

import pandas as pd
data = pd.read_csv('file.csv',sep=',',decimal='.',header=None,nmaes=['col_name1','col_name2','col_name3'])
#sep参数代表的是csv 文件中的数据分隔符，decimal是小数点占位符,header是否有标题，names 代表每列数据的列名。
data.columns   #输出数据的列名
data.col_name1  #输出col_name1列的数据
data[['col_name1','col_name2']] #col_name1和col_name2列的数据

#处理空白数据即NAN数据
data.fillna(data.mean(axis=0))  #用每列的均值去替换NAN
#axis=0 表示处理每行，axis=1表示处理每列

#取出1-4行的数据
data.loc[1:5]
#删除第5行数据
data.drop(data.index[4],inplace=True)
#删除2列
data.drop(data[1],axis=1,inplace=True)
#取出4列5行的数据
data[3][4]

#当数据集过于庞大的时候可以用遍历容器的形式去存储数据
data = pd.read_csv('file.csv',sep=',',decimal='.',header=None,nmaes=['col_name1','col_name2'],iterator=True)
data.get_chunk(10)  #获取前10行的数据

data['col_name1']>6.0 #如果成立返回True

data1 = data.groupby('col_name1').mean()#先按照col_names 分组然后求每一组的平均值

data.sort_index(by='col_name1') #按照col_name 排序 


from sklearn import datasets
data = datasets.load_iris()  #从库中直接加载数据集
data.feature_names  #输出数据集的列名
data.data #输出数据

#将数据转换为固定格式
data = pd.DataFrame(data.data,columns=data.feature_names)

2.下面的导入将帮助那些python3特有的代码也能直接在python2中运行

from __futrue__ import (absolute_import,division,print_function,unicode_literals)
from builtins import *
from future import standard_libary
standard_library.install_aliases()

3.查看工具包的版本

import numpy
numpy.__version__

4.升级工具包

pip install -U numpy==1.11.0  #不带版本号默认升级到最新版本

5.在线导入文本测试数据

from sklearn import fetch_20newsgroups
data = fetch_20newsgroups(categories = ['sic.med','sci.space'])
#下载的是数据集中关于医学和空间方面的数据

6.numpy 使用方法

import numpy as np
data = np.array([[1,2,4,5],[1,7,5,4],[2,1,5,7]) #将列表转换为二维narray数据形式
data[1][0]  #输出1

data = data.reshape(1,12) #将其改变为一维数组

data = np.arange(9).reshape(3,3)
#生成数组 [[0,1,2],[3,4,5],[6,7,8]]
data = np.linspace(0,10,1) #生成公差为1的等差数列
data = np.logspace(1,8,2) #生成等比数列

data = np.arange(4).reshape(2,2)
data = np.delete(data,0,axis=0)
#表示删除data的每行的第一个元素输出[[1],[4]]

7.help 和 dir函数的使用

list = [1,2,5,4]
dir(list) #返回list 对象的成员方法和属性
help(list.pop) #返回list对象的pop方法的使用方式

8.索引列表

list = [(0, 'Spring'), (1, 'Summer'), (2, 'Fall'), (3, 'Winter')]
for k,v in list:
    print k
    print v

9.安装python库的时候最好用此命令

sudo apt-get install python-matplotlib

10.python 数据可视化文件形式存储

import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('Agg') #这句话的位置只能在这里
import matplotlib.pyplot as plt

data = np.array([105,120,140,154,120,68,147,25])
plt.plot(data)
plt.savefig("/img.jpg")

ALWAYS_FANG

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python 杂记

1.pandas 数据加载importpandasaspddata=pd.read_csv('file.csv',sep=',',decimal='.',header=None,nmaes=['col_name1','col_name2','col_name3'])#sep参数代表的是csv文件中的数据分隔符，decimal是小数点占位符,header是否有标题，names...
复制链接

扫一扫