大家好,小编为大家解答python在财务分析中的应用的问题。很多人还不知道用python做财务数据分析,现在让我们一起来看看吧!
本次案例还是适合人文社科领域,金融或者新闻专业。本科生做线性回归和主成分回归就够了,研究生还可以加随机森林回归,其方法足够人文社科领域的硕士毕业论文了小神猪。
案例背景
有八个自变量,['微博平台可信度','专业性','可信赖性','转发量','微博内容质量','时效性','验证程度','人际信任'] ,一个因变量: 投资信息可信度。
研究这八个自变量对因变量的影响。
数据读取
导入包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
import statsmodels.formula.api as smf
plt.rcParams ['font.sans-serif'] ='SimHei' #显示中文
plt.rcParams ['axes.unicode_minus']=False #显示负号
sns.set_style("darkgrid",{"font.sans-serif":['KaiTi', 'Arial']})
读取,我数据格式这里是spss 的sav格式,但是python也能读取。
# 读取数据清洗后的数据
spss = pd.read_spss('数据2.sav')
#spss
选取需要的变量,展示前五行
data=spss[['微博平台可信','专业性','可信赖性','转发量','微博内容质量','时效性','验证程度','人际信任','投资信息可信度']]
data.head()
取出列名称
columns1=data.columns
描述性统计,算一下均值方差分位数等等
data.describe() #描述性统计
我这数据量并不多....
取出X和y
X=data.iloc[:,:-1]
y=data.iloc[:,-1]
画图展示
对八个自变量和一个因变量画箱线图
column = data.columns.tolist() # 列表头
fig = plt.figure(figsize=(10,10), dpi=128) # 指定绘图对象宽度和高度
for i in range(9):
plt.subplot(3,3, i + 1) # 2行3列子图
sns.boxplot(data=data[column[i]], orient="v",width=0.5) # 箱式图
plt.ylabel(column[i], fontsize=16)
plt.tight_l