Python数据处理二

前两天我的笔记本电脑出问题了,拿到联想3C服务区修,耽搁了一些时间,然后用手机写了一些内容,今天把前几天学习的内容给补上。
今天首先是简单记录一下自己学习的pandas。同样的,练习的代码放到我的GitHub上:https://github.com/noDreamNoLife/hugay

1. pandas

1.1 series

首先series它可以看成一个类似数组的结构,它其实是一组数据和其索引组成的一种结构,一组简单的数据就可以是一个series结构。

# Series
obj = Series([1, 2, 3, 4, 5])
print(obj)
print(obj.index)
print(obj.values)

# 自定义索引
obj = Series([1, 2, 3, 4, 5], index=(1, 2, 3, 4, 5))
print(obj)

# series还可以看成字典的形式
data = {'a': 1, 'b': 2, 'c': 3}
obj = Series(data)
print(obj)
keys = ['a','c']
obj_1 = Series(data,index=keys)
print(obj_1)

# series中简单的缺失值判断与处理
data = {'a':None,'b': 2, 'c': 3}
obj = Series(data)
print(pd.isnull(obj))
print((obj.isnull()))

# 自定义索引名
data = {'xiaohu':None,'xiaodai': 2, 'xiaowang': 3}
obj = Series(data)
obj.name = 'xingminghemingzi'
obj.index.name = 'xingming'
print(obj)
1.2 DataFrame
data = {
    '篮球':['詹姆斯','杜兰特'],
    '足球':['C罗','梅西'],
    '乒乓球':['马龙','张继科'],
}
df = DataFrame(data)
print(df)
print(data['篮球'])

dates = pd.date_range('20200627',periods=5)
print(dates)
df = DataFrame(np.random.rand(5,3),index=dates,columns=['A','B','C'])
print(df)
print(df.loc['2020-06-27':'2020-06-28',['A','B']])
print(df.at['2020-06-29','A'])
print(df.head(2))
print(df.tail(2))
1.3 重新索引,数据运算,数据对齐
s1 = Series([1.1,2.2,3.3],index=['a','b','c'])
s2 = Series([-1.1,-2.2,-3.0,4.4],index=['a','b','c','d'])
s3 = s1+s2
print(s3)

d1 = DataFrame(np.arange(9).reshape((3,3)),index=[1,2,3],columns=list('abc'))
d2 = DataFrame(np.arange(12).reshape((4,3)),index=[1,2,3,4],columns=list('cde'))
d3 = d1+d2
print(d3)
d3 = d1.add(d2,fill_value=0)
print(d3)
1.4 Dataframe与series之间的运算与排序
df1 = DataFrame(np.arange(12).reshape((4,3)),columns=list('abc'),index=[1,2,3,4])
s1 = Series(df1.loc[1])
print(df1)
print(s1)
dele = df1-s1 #广播相减
print(dele)

s2 = Series(np.arange(3),index=['c','d','e'])
add1 = df1+s2 # 不同索引会合并
print(add1)

s2 = Series([3,1,2],index=['c','d','e'])
s1 = s2.sort_values()
print(s1)
s1 = s2.sort_index()
print(s1)

df1 = DataFrame(np.arange(8).reshape((2,4)),columns=['d','b','a','c'],index=[2,1])
df2 = df1.sort_index()
print(df2)
df2 = df1.sort_index(axis=1)
print(df2)
df2 = df1.sort_values(by='d')
print(df2)

最后读取文件时比较常用的读取csv文件,这个经常会使用,后续在使用中也有相应的体会。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种功能强大的编程语言,也被广泛用于数据处理和分析。以下是一些常用的Python数据处理工具和技术: 1. Pandas:Pandas是一个开源的数据分析和处理库,提供了高效的数据结构和数据分析工具。它可以处理各种数据类型,包括表格数据、时间序列数据等。下面是一个使用Pandas进行数据处理的例子: ```python import pandas as pd # 读取CSV文件 data = pd.read_csv('data.csv') # 查看数据前几行 print(data.head()) # 进行数据筛选和过滤 filtered_data = data[data['age'] > 30] # 进行数据聚合和统计 grouped_data = filtered_data.groupby('gender').mean() # 输出结果 print(grouped_data) ``` 2. NumPy:NumPy是Python中用于科学计算的基础库,提供了高性能的多维数组对象和各种数学函数。它可以用于处理和操作大型数据集。下面是一个使用NumPy进行数据处理的例子: ```python import numpy as np # 创建一个数组 data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # 计算数组的平均值 mean = np.mean(data) # 计算数组的标准差 std = np.std(data) # 输出结果 print("Mean:", mean) print("Standard Deviation:", std) ``` 3. Matplotlib:Matplotlib是一个用于绘制图表和可视化数据的库。它可以创建各种类型的图表,包括折线图、散点图、柱状图等。下面是一个使用Matplotlib绘制折线图的例子: ```python import matplotlib.pyplot as plt # 创建数据 x = [1, 2, 3, 4, 5] y = [10, 8, 6, 4, 2] # 绘制折线图 plt.plot(x, y) # 添加标题和标签 plt.title("Line Chart") plt.xlabel("X-axis") plt.ylabel("Y-axis") # 显示图表 plt.show() ``` 这些是Python中常用的数据处理工具和技术,它们可以帮助你处理和分析数据,提高数据分析的效率和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值