数据科学
文章平均质量分 89
JessssseYule
数学博士在读,主要研究方向:预训练,自监督学习,神经科学
展开
-
梳理数据预处理与特征工程全流程
最近对特征工程颇感兴趣,特别是看到很多数据分析的案例,他们在前面分析了一通,从简单的均值、方差等统计指标,到不同特征的分布都研究了一遍,但是最后直接就建模,感觉从特征工程到建模之间缺乏联系,所以我就在想,到底怎么正确地进行特征工程,怎么从特征工程中挖掘有用信息,辅助建模,这些都是很值得研究学习的问题。这一次,我想先研究一个问题,为什么我们需要探索数据,也就是所谓的EDA,从EDA中,我们希望探索些什么。特征工程对于特征有一个理想的要求,那就是不仅能表示出数据的主要特点,还需要符合模型的假设,所以经常需要原创 2021-01-18 10:54:41 · 1384 阅读 · 0 评论 -
随机过程(下):Markov Jump与Kolmogorov equation
之前我们介绍了离散时间离散状态的马尔可夫链,这次就主要来谈一下连续时间的马尔可夫链,也就是所谓的Markov Jump。连续时间和离散时间,带来最大的区别就在于转移概率,这就有点像速度这个概率,你可以用一秒一米表示速度,可是如果时间是一瞬间,应该怎么表示速度呢,答案是微分,对于转移概率也是一样。通过对转移概率进行微分,就引出了transition rate:μij=limh→0pij(h)h\mu _{ij} = lim_{h \to 0} \frac{p_{ij}(h)}{h}μij=limh→.原创 2020-06-18 21:35:42 · 2540 阅读 · 0 评论 -
随机过程(上):马尔可夫链
随机过程是数学专业非常经典的一门课,在很多领域都有应用,之前谈论过的时间序列分析也和这门课息息相关,没想到这学期又遇上了,趁着期末复习简单总结一下,只是整理一下概念,所以就不深入进行推导了。因为教材是英文的,所以部分术语会用英文,免得翻译不准确,当然一些大家都知道的术语还是用中文,毕竟打字比较方便。虽然学数学就应该用数学的语言去理解和表达,但是这样写文章一方面打字确实很费时间,另一方面我也只是想整理一下概念和概念之间的联系,所以很多地方都说得比较通俗,最终我们还是应该以标准的文献资料为准。还有一点想说.原创 2020-06-18 21:30:20 · 5211 阅读 · 0 评论 -
具有相关关系的数据处理:线性混合模型与广义线性混合模型
进行数据分析时,会发现有时候一个模型中的变量之间可能具有相关性(correlation),比如面积和长度就具有高度的相关性,如果同时对这些参数建模,就存在共线性问题,所以一般是只针对其中一个参数建模。而这种相关性,其实还存在于数据之中,比如时间序列数据,在不同的时间,同一个对象的数据之间就是相互有联系的,那么我们应该怎么对这些具有相关性的数据进行建模分析呢。在进一步分析之前,再次强调一下,这里...原创 2019-11-03 16:09:04 · 6677 阅读 · 0 评论 -
用逻辑回归(logistic regression)进行数据分析
网上用逻辑回归做分析的例子不少,但很多都是建了一个逻辑回归模型就结束了,这里将展示一个完整的分析过程,包括建模之后的分析和改进,我觉得这些过程有时候甚至比建一个模型重要,也要花费更多的时间。首先我们来看一下问题,主要是分析一个人年薪能不能达到十万和什么因素有关(wage_status),响应变量是就是能不能达到年薪十万,解释变量就是年龄、婚姻状况等等:第一步,我们可以探索一下数据,变量主要...原创 2019-11-03 16:04:54 · 8697 阅读 · 6 评论 -
用广义线性模型进行数据分析(下)
之前我们已经探讨了,在构建GLM模型之前,如何进行数据预处理,接下来就介绍一下正式的建模过程。首先我们要做的是进一步具体地分析我们应该选择模型的变量。第一步是对一个个变量单独建模,观察他们的p值:这个p值就是假设检验的p值,意思就是我们对模型的参数进行假设检验:H0:βj=0 H_0 : \beta _j = 0 H0:βj=0检验的就是变量的参数在等于0和不等于0的情况下(bet...原创 2019-09-21 20:33:21 · 7562 阅读 · 0 评论 -
用广义线性模型进行数据分析(上)
在这里,我通过我的作业来介绍一下如何用GLM进行数据分析(这里主要用R进行分析),不过还没拿到答案,所以也不确定结果是否正确,不论怎样,介绍一下整个分析的思路也足够了。以上是数据的一些介绍,简单来说就是分析急诊室就诊次数和一些变量之间的关系吧,首先我们来分析一下这些数据的大致情况:可以看到,一大堆变量,包括响应变量都是右偏的,一般来说这时候我们就可以对他们应用log transforma...原创 2019-09-21 20:30:27 · 3140 阅读 · 1 评论 -
时间序列分析教程(六):Box-Jenkins方法(下)
之前介绍了如何判断序列的平稳性,如何对非平稳序列进行转换,其实整个过程就是Box-Jenkins的第一个阶段。重新叙述以下这个过程,首先,我们拿到一段时间序列,可以画图初步判断是否平稳,假设不平稳,再画出SACF和SPACF,进一步判断有没有趋势性和季节性,如果有,就尝试之前介绍的方法,把序列转化为平稳序列,得到平稳序列之后,再画一次SACF和SPACF,根据它们判断用MA、AR还是ARMA模...原创 2019-11-03 15:57:05 · 5411 阅读 · 0 评论 -
时间序列分析教程(五):Box-Jenkins方法(上)
之前介绍了时间序列的基本性质和一些基本模型,这里就介绍对时间序列进行分析建模的一套完整流程,也就是Box-Jenkins方法。简单来说Box-Jenkins方法包括四个阶段,第一,把序列转化为平稳序列,并判断出合适的ARMA模型(确定阶数)用于分析;第二,估计模型的未知参数;第三,对模型进行评价分析;第四,使用得到的模型进行预测。可以看到,其实整个过程最重要的还是第一个阶段,即如何对非平稳序...原创 2019-11-03 15:54:46 · 14566 阅读 · 0 评论 -
时间序列分析教程(四):AR与MA模型详细分析(公式推导,慎入)
之前从比较浅的角度介绍了AR、MA、ARMA等模型,最近在课堂上发现其实还有很多细节可以深究。如果只是想要简单了解这些模型然后应用,我个人觉得之前的文章已经足够了,而如果有兴趣更深入地了解AR和MA模型,这里会更多地从数学的角度,分析一下它们的表达式、期望方差以及平稳的条件。首先介绍一下滞后算子(Backward shift operator)和差分算子(difference operator...原创 2019-11-03 15:49:13 · 22167 阅读 · 2 评论 -
时间序列分析教程(三):ARIMA
ARIMA模型又叫差分自回归移动平均模型,在学习这个模型之前,先依照顺序学习AR、MA、ARMA模型。AR(Autoregressive,自回归)模型,认为通过时间序列历史数据加上白噪声就可以预测当前时刻的数值。首先什么是白噪声,他也是一段序列{e_0, e_1, …, e_t},需要满足条件:E(et)=0E(e_t)=0E(et)=0Var(et)=σ2Var(e_t)=\sigm...原创 2019-11-03 15:43:46 · 4031 阅读 · 1 评论 -
时间序列分析教程(二):移动平均与指数平滑
之前介绍了时间序列的基本概念和性质,现在就正式介绍一些处理时间序列的模型方法,第一个是移动平均法。移动平均法很简单,就是用最近的数据预测未来短时间内的数据。有简单移动平均法,真的很简单,就是用最近的一组数据,去平均,作为下一时刻的预测:Si=(xi−1+xi−2+...+xi−n)/nS_i = (x_{i-1} + x_{i-2} + ...+ x_{i-n})/nSi=(xi−1+x...原创 2019-11-03 15:32:58 · 5709 阅读 · 0 评论 -
时间序列分析教程(一):基本性质
这个学期接触了时间序列分析,期末复习了几天,稍微总结一下写一个系列的文章,如果出现一些知识性错误或者迷惑的地方,欢迎交流。时间序列分析,其实就是和自然语言处理一样对序列数据进行分析,只是这里的序列数据是关于时间的序列,而自然语言处理是关于语言的序列。另一方面,时间序列也没有自然语言处理那样有很多分析目标,一般来说会有三种目标:描述历史数据的动态变化,分析数据变化的规律以及预测未来数据的变化趋势...原创 2019-11-03 15:22:42 · 7428 阅读 · 3 评论