数据分析Day1
小概率佐证
奶+茶 先加奶还是先加茶,每次猜中的概率是0.5,猜n次全中的概率是0.5**n。如果某人试了10次,且每次都猜中了,或者超过一定比例(如90%),说明是真的牛,能猜中。
数据分析
- 数据采集
- 预处理
- 数据转换
- 数据可视化
- 数据分析报告
工具:pandas/numpy/pyecharts
机器学习
- 描述性分析
- 统计推断分析
人研究事物的三大思维特征:
回归、聚类、分类
jupyter notebook
- 在pycharm中安装 pip install jupyter
- 启动:在pycharm终端中输入 : jupyter notebook,会自动在浏览器中打开提示的地址
- 常用快捷键:ESC变成命令模式,回车编辑模式,命令模式下dd删除、a前增加、b后增加、m是markdown模式,y是代码模式
numpy
- 整数和浮点数支持高精度
2100
科学计数法:
1e10 = 1*1010=1000000000
1e-10=1*10**(-10)=0.000000001
- 对函数有广泛支持
- 对数log
np.log10(100) 以10为底的100的对数是2
np.log2(8) 以2为底的对数等于3
np.log(10) 以e为底的对数等于10
- e的来历
np.e # 2.718281828459045
复利的极限就是e
例如年利率20%,按月复利的话是100*(1+0.2/12)**12=121.93910849052317,如果是按周\按天\按时\秒复利的话是不是无限多收益?其极限就是e,即2.718281828459045
- 正态分布概率公式
1 2 π σ e x p ( − ( x − μ ) 2 2 σ 2 ) \frac{1}{\sqrt{2\pi}\sigma} exp(-\frac{(x- \mu)^2}{2\sigma^2})