🐳 我正在和鲸社区参加“商业数据分析训练营”和鲸社区 - Heywhale.com),以下是我的学习笔记:
学习主题:商业数据分析与Python基础
日期:2023/09/21
关键概念/知识点:
- 商业数据分析概论
- 商业数据分析的概念及其应用
- 商业数据类型、来源
- 横截面数据
- 时间序列数据
- 面板数据
- 商业数据分析工具简介
- Python
- R语言
- Stata
- MATLAB
- EViews
- SAS
- SPSS
- Python 商业数据分析相关的程序包
- Matplotlib
- Numpy
- SciPy
- Pandas
- Seaborn
- Scikit-Learn
- ...
- python商业数据存取
- tushare库
- DataReader包
- python商业数据图形绘制与可视化
- matplotlib绘图基础
- 折线图:ax.plot(x, y)
- 柱状图:ax.bar(x, y)
- 饼图:ax.pie(sizes, labels)
- 散点图:ax.scatter(x, y)
- 直方图:ax.hist(x, bins)
- 箱图:ax.boxplot(x)
- matplotlib绘图基础
掌握的新函数/方法:
- 数据导入
- 查看数据
- 删除缺失值
- 补充缺失值
- 统计描述
代码举例:
# 示例代码
import pandas as pd
# 读取本地数据
df = pd.read_csv('/home/mw/input/data_analysis8875/Boston Housing Data.csv')
# 查看前5行数据
print(df.head())
# 查看最后5行数据
print(df.tail())
# 提取从11到20行前3列数据
print(df.iloc[10:20,0:3])
# 提取从11到20行,CRIM、RM、AGE三列中数据
print(df.loc[10:20,['CRIM','RM','AGE']])
# 检查是否为缺失值,sum() 函数将每列的缺失值数量加总
print(df.isna().sum())
# 若缺失值不是很多,可以直接选择删除缺失值
df.dropna (inplace=True)
#若数据量不大,还要进行预测,建议选择数据填充
df.loc [df ['A'].isna (),'A'] = B
# 生成数据集的描述性统计信息,如计数、均值、标准差、最小值、四分位数
print(df.describe())
# 安装
pip install matplotlib
# 导入库
import matplotlib.pyplot as plt
# 创建图形和子图
fig = plt.figure()
ax = fig.add_subplot(1, 1, 1)
sales = [100, 150, 120, 180, 210, 170]
months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']
# 绘制柱状图
ax.bar(months, sales);
# 自定义样式
ax.plot(months, sales, linestyle = '--', color = 'red', marker = 'o')
plt.title("某公司上半年销售额变化折线图")
plt.xlabel("月份")
plt.ylabel("销售额")
# 显示图形
plt.show()
'''
添加标题:plt.title('Title')
添加x轴标签:plt.xlabel('X-label')
添加y轴标签:plt.ylabel('Y-label')
添加图例:ax.legend(['Line 1', 'Line 2'])(在绘图函数中添加label参数)
'''
关键总结:
- matplotlib是一个用于绘制二维图形的强大Python库,它提供了丰富的绘图工具,使得我们能够轻松地将数据可视化为直观、美观的图表。
- Python 就像是一把瑞士军刀,广泛用于数据科学、机器学习、Web 开发等多个领域。Python 具有通俗易懂的语法,搭载诸如 NumPy、pandas、SciPy 和 scikit-learn 等丰富的库,让数据分析与建模游刃有余。
问题/困惑:
- 不熟悉绘图的代码中的某些参数
- 需要多加练习相关项目
- 完成本训练营剩下的关卡
参考资料/相关资源链接:
- 商业分析师 Python 训练营 BA1:应用入门:和鲸社区 - Heywhale.com