我正在和鲸社区参加“xxxx商业分析师 Python 训练营 BA1:应用入门活动” 商业分析师 Python 训练营 BA1:应用入门 - Heywhale.com,以下是我的学习笔记:
学习主题:商业数据存取
日期:2023.9.14
关键概念/知识点:
- 用pandas读取本地文件,用pd.to_csv( )或pd.to_excel( )将数据保存
- 用.head()、tail( )、sample(10)等方法预览数据
- 用tushare库获取股票、基金、期货、数据货币等行情数据
- 用Pandas_datareader库获取谷歌金融数据Google Finance、英格玛数据Enigma等数据
掌握的新函数/方法:
- groupby()
- agg()
- pd.to_datetime( )
代码举例:
# 示例代码
grouped = stock_data.groupby('ts_code')
aggregated = grouped['open', 'close'].agg(['mean', 'max', 'min'])
# 将trade_date列转换为日期格式
stock_data['trade_date'] = pd.to_datetime(stock_data['trade_date'], format='%Y%m%d')
# 按照股票代码(ts_code)和年份(trade_date)进行分组,并计算成交量(vol列)的总和
grouped_data = stock_data.groupby(['ts_code',pd.Grouper(key='trade_date',freq='Y')])['vol'].sum()
关键总结:
- group分组后用agg对多列应用聚会函数,提高效率
- 学到了用两种库读取商业数据的方法
- 对股票数据的代码和年份分组以及画最高值(high列)的折线变化图之前,需要先将日期由字符串格式转化为时间格式
问题/困惑:
- 不熟悉时间的字符串格式和时间格式及相关转化
- 需要更多关于分组函数groupby()的练习
下一步计划:
- 了解更多数据清洗的方法,练习日期格式转化
- 完成分组函数的练习