什么叫数据分析?
通过对大量数据进行科学分析,从而得出结论,提出建议,辅助决策。
科学的数据分析步骤有哪些?
1.明确目的
2.收集数据(已知数据或网络爬虫)
3.数据处理
4.数据分析(数据分析(业务),数据挖掘(代码+算法))
5.数据报告(报告:ppt,word,markdown;可视化:python FilneBI PowerBI)
一元线性回归趋势预测
一元线性回归:y=wx+b
Years(工龄) | Salary(薪资) |
1.1 | 19343 |
1.3 | 26205 |
1.5 | 17731 |
2 | 23525 |
2.2 | 19891 |
2.9 | 36642 |
3 | 40150 |
3.2 | 34445 |
3.2 | 44445 |
3.7 | 37189 |
3.9 | 43218 |
4 | 35794 |
4 | 36957 |
4.1 | 37081 |
4.5 | 41111 |
4.9 | 47938 |
5.1 | 46029 |
5.3 | 63088 |
5.9 | 61363 |
6 | 73940 |
6.8 | 71738 |
7.1 | 78273 |
7.9 | 81302 |
8.2 | 93812 |
8.7 | 89431 |
9 | 85582 |
9.5 | 96969 |
9.6 | 92635 |
10.3 | 102391 |
10.5 | 101872 |
读取数据:
代码:
import seaborn
import statsmodels.api
import pandas as pd
import numpy as np
df = pd.read_csv("Salary_Years.csv")
seaborn.lmplot(x='Years',y='Salary',data=df)
plt.show()
画出散点图如下:
求斜率和截距:
fit=statsmodels.api.formula.ols('Salary~Years',data=df).fit()
print(fit.params)
Intercept 5792.200199 Years 9449.962321 dtype: float64