利用Python进行数据分析学习,基础知识第三弹,具体内容可以参考目录。希望阿慕童鞋可以不断学习,不断UP
目录
字符串方法(可用于数据清洗)
1. split(数据分割)
#1. 前期数据导入
import pandas as pd
history=pd.read_excel('history.xlsx')
history
#2. 取“广告计划名称”这一列,在输入str.后选择split方法,并按照“_”进行分割
history['广告计划名称'].str.split('_')
split调整小功能
1. 加入“ expand=True ” ,使其变为DataFrame框架
2. 若想取出分割后的某列,直接在后面补充加上“[相应的字段名]”
例子展示(此时仍是视图操作,不改变原表history的内容,如果想要结果保存,可以为所得结果单独增加一列):
2. contains(数据筛选)
#取出“商品名称”这一列,筛序该列包含“玩转”这个词的记录
history[history['商品名称'].str.contains('玩转')]
3. replace(数据替换)
#使用到了正则表达式进行简化替换
history['商品名称'].str.replace(r'《(.*?)》',r'【\1】',regex=True)
4. extract(数据提取)
#使用到了正则表达式,其中提取广告计名称这一列
history['广告计划名称'].str.extract(r'(.*?)_')
绘图(做可视化)
Python绘图的两种方法
方法一:利用Pandas中的plot方法绘制各种图片
1. 折线图
调用plot方法
#先按投放日期分类,对其GMV进行汇总,then调用plot方法,其中kink选用折线类型,x轴为投放日期,y轴为GMV
history.groupby('投放日期')['GMV'].sum().plot(kind='line',x='投放日期',y='GMV')
输出效果:
改进:表格最下方的四个方块,即字体未能转换为汉字(导入matplotlib包,调用rcParams方法即可)
2. 柱状图
输入所需的x轴,y轴,并将kind改为“bar”类型
3. 水平柱状图
在柱状图的基础上横过来,将king改为“barh”即可
4. 直方图
5. 散点图
6. 饼图
7. PyGWalker(第二种绘图方法)
(1)安装PyGWalker
将代码复制到小黑框
pip install pygwalker
#1. 在Jupyter NoteBook导入相关的包
import pygwalker as pw
#2. 将操作表引入pw
pw.walk(history)
后续通过属性拖拽,便可以进行相关做图
map/apply/applymap
#使用map进行单列规则的自定义
history['GMV'].map(lambda x:int(x))
#map可以对字典进行操作,apply不可以
history['人群标签'].map({'数据分析':'数分'})
applymap可以进行批量处理(用的少,先pass)