数据分析
文章平均质量分 65
你再翻一页就好了
reguler
展开
-
Python连接数据库进行操作
sqlalchemy连接mysql原创 2021-01-14 18:00:46 · 165 阅读 · 0 评论 -
线性代数(2)
张成空间:行向量张成空间的秩与其行向量本身的秩是相同的,即r(A)=n,张成空间的集合为Rr(a)R^{r(a)}Rr(a).如果行向量{A1,A2,..,AnA_1,A_2,..,A_nA1,A2,..,An}线性相关,所以矩阵A不是行满秩的。在乘法列观点中,张成空间的值域列空间。在列向量矩阵函数Ax=yAx=yAx=y中,yyy是列向量的线性组合。...原创 2021-10-12 12:18:06 · 651 阅读 · 0 评论 -
时间序列分析
时间序列分析在于检验不同时间的样本分布,这里不同时间是以时滞k来说明,一:相同时间的样本分布简单的时间序列比如当k=0时,cov(Yt1,Yt1)cov(Y_{t_1},Y_{t_1})cov(Yt1,Yt1)是为等于方差,所以相同分布,协方差就等于方差,相关系数为1,...原创 2021-09-30 09:11:12 · 1153 阅读 · 0 评论 -
t检验方法
t检验定义:t检验又称为学生式检验,主要是用于样本含量小(小于30个),总体标准差δ未知的正态分布。t=样本均值−总体均值标准误差t=\frac{样本均值-总体均值}{标准误差}t=标准误差样本均值−总体均值其中标准误差是按照的样本的值来计算的,标准误差=S(样本标准差)n(样本大小)标准误差=\frac{S(样本标准差)}{\sqrt{n}(样本大小)}标准误差=n(样本大小)S(样本标准差)H0:H_0:H0:根据实际的要证明的情况来做出假设。F检验F检验的原则:记两独立总体为:原创 2021-09-29 16:44:33 · 2928 阅读 · 0 评论 -
线性代数基础(1)
基本概念:原创 2021-09-26 16:40:54 · 437 阅读 · 0 评论 -
数据挖掘与机器学习
加粗样式什么是多重共线性?如何识别多重共线性?多重共线性是指预测变量之间有很高的关系度。原创 2021-09-24 23:38:30 · 146 阅读 · 0 评论 -
监督学习方法
1;广义线性模型:2;对数几率回归数几率函数:y=11+e−xy=\frac{1}{1+e^{-x}}y=1+e−x1(2.1),对数几率函数是一种"Sigmoid函数",它将z值转化为0或1的yyy值,将此函数作为g−(.)g^-(.)g−(.)将yyy视为样本xxx作为正例的可能性,对几率取对数则得到“对数几率”,lny1−yln\frac{y}{1-y}ln1−yy. (2.2).此处xxx为样本xxx,预测实际是去逼近真实值,其对应的模型为"对数几率回归",公式2.1的yyy视为后原创 2021-06-04 00:33:47 · 354 阅读 · 0 评论 -
CART决策树回归
不同于分类决策树,回归决策树返回预测值原创 2020-08-01 14:31:05 · 424 阅读 · 0 评论 -
金融风控:vintage、滚动率、迁徙率
Vintage:本意是和酒相关,在金融里用来形容时间段Vintage口径下的滚动、迁徙是不同时间段的滚动迁徙,在金融里比较常用的是MnM_nMn,以逾期时间来观察最后的坏账,以时间的对比来观察首逾率的变化:二:迁徙率一般选择在目标时间段内的时间来进行计算,比如按天来计算迁徙率,...原创 2020-07-21 16:25:01 · 3853 阅读 · 0 评论 -
聚类分析基础-相似度计算
相似性:1;二元变量对于二元变量,我们通常比较为1的数据占比比例,对于为0的一般不比较相似性,因为没有目标特征的样本其差异无法判断。2;标量对只有大小,没有方向的两个样本,用欧几里何距离:e.g:y=(1,4,6),x=(3,5,120)e.g:y=(1,4,6),x=(3,5,120)e.g:y=(1,4,6),x=(3,5,120),则两样本之间的相似性为d=(1−3)2+(4−5)2+(6−120)2d = (1-3)^2+(4-5)^2+(6-120)^2d=(1−3)2+(4−5)2+(6原创 2020-07-10 18:09:15 · 3529 阅读 · 0 评论 -
数据分析模型漏斗模型
占坑原创 2020-07-08 10:17:13 · 376 阅读 · 0 评论