![](https://img-blog.csdnimg.cn/20190829100243489.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习/统计
文章平均质量分 78
关于机器学习和统计的一些知识的博文
WenbinYao&YouweiHu
两个人一起坚持、学习、进步
展开
-
GTWR介绍
本博客主要介绍GTWR模型及其扩展以及传统的GWR。1.GTWR介绍Huang在GWR模型的基础上提出GTWR模型,GWR模型中自变量的回归参数随空间地理位置的变化而变化,而GTWR模型中自变量的回归参数是随着时空位置的变化而变化。因此该模型相对GWR模型能较好地描述解释变量与因变量之间的时空关系,GTWR模型的基本表达式如下所示:其中,(ui,vi)表示第i个样本点的经纬度坐标,ti表示观测时间,yi表示第i个样本点的因变量值,Xik表示第i个样本点的第k个解释变量。 为模型误差项,β0(ui,v原创 2021-10-13 19:23:51 · 20758 阅读 · 71 评论 -
模型可解释性
最近发现自己对模型可解释性这方面的知识已经严重滞后了,发现机器学习可解释性这方面已经做了很多工作了,并且也已经有很多比较成熟的可解释性方法了,下面先记录几个今天看到的,之后在仔细了解下去认真看一下。1.Partial Dependence Plots这个方法相对比较简单,感觉类似于敏感性分析的工作。可以看下面几个链接就可以完全了解了。1.比较好的介绍,且有sklearn的实现代码2.对1的翻译3.另一篇不错的介绍,使用另一个专门的包实现的2.特征重要性排序特征重要性排序之前一般都是用决策树或基转载 2021-07-27 15:25:58 · 293 阅读 · 0 评论 -
BME case study
这篇博客主要是记录下BME做的几个case,使用的是BMEGUI给的几个案例。关于BME和BMEGUI的理论介绍可以详细参阅我的上一篇博客,点击这里。具体来说,首先跑的是tutorial6,然后跑的是tutorial4,最后跑的是tutorial7,通过这三个例子就可以很好掌握BMEGUI这个软件了。1.tutorial6首先跑的是tutorial6,这个tutorial主要讲的是Mean trend,是否去除global Mean trend对后面的方差模型和其他分析的影响。...原创 2021-07-25 11:52:24 · 401 阅读 · 1 评论 -
BME(Bayesian maximum entropy)
最近在看BME,看了很多文章,有这样一种感觉,就是理论都看懂了,但是不知道咋使用,不知道在实际运用过程中是咋样一步步操作的,在此记录下BME的理论和实践的学习过程,方便自己梳理。1.BME理论基础1.1 一些变量说明首先,大自然的时空发生过程可以看做是一个随机过程(The spatiotemporal random field ,STRF),然后在一些时空点位(p1,p2,…,pn)上,有着对应的随机变量(x1,x2,…xn),这些随机变量产生了一些实例(X1,X2,…,Xn),其中pi=(si,ti原创 2021-07-21 17:32:31 · 3540 阅读 · 1 评论 -
03空间计量基础模型之SLX,SAR,SEM
这两天刚好有些时间,于是跑了一些空间计量模型作为实战练习,使用的包是pysal,原教程点击该链接,主要是阐述了空间异质性、空间依赖的含义以及SLX,SAR,SEM这三个空间计量基本模型,其他的许多变体其实也就是这三个模型的两两结合或三个结合在一起。在本博客中不再阐述空间异质性和空间依赖了,只讲如何用pysal实现SLX,SAR,SEM这三个基本模型,希望了解全部内容的可以看原教程。此外,pysal这个包最好是要更新到最新版,要不然本博客代码跑起来会有bug。1.数据情况及OLS回归The Data: S原创 2021-07-01 10:24:49 · 7519 阅读 · 6 评论 -
空间计量经济学 Spatial Econometrics
最近看了下沈体雁,于瀚辰老师写的《空间计量经济学》,写的还是简单明了,十分易懂,用来入门还是颇为不错的。但是遇到一个问题,在前面各个模型介绍时,书中没给出英文简写,可是后面有些地方直接用简写了,导致我都无法了解到时候这个简写代表的是哪个空间计量经济学模型,十分尴尬,上网查了下也不是很对应,因此这里记录一下。SAR,Spatial autoregressive model, 空间滞后模型;SEM,Spatial error model, 空间误差模型;SLX,Spatial lag of X mod原创 2021-04-30 10:58:27 · 1563 阅读 · 2 评论 -
马氏距离进行离群值检测
没找到非常好的中文的文章,看到一篇很好的使用python进行马氏距离离群值检测的文章,在此转载,里面的代码可以直接跑,效率也是挺高的。核心代码为:# Covariance matrixcovariance = np.cov(indepvar[:,:-1] , rowvar=False)# Covariance matrix power of -1covariance_pm1 = np.linalg.matrix_power(covariance, -1) #对协方差矩阵取逆# Cente转载 2021-04-05 18:47:35 · 1455 阅读 · 7 评论 -
Hidden markov model HMM隐马尔可夫模型
主要参考李航老师的《统计学习方法》和Tutorial on Unsupervised learning and inference of Hidden Markov Models。ppt是我自己做了一下,因为只是为了给女票讲一讲和自己记忆的,所以做得很简陋,大家粗略看看吧,最后用代码写了一个例子,例子基本来源于https://hmmlearn.readthedocs.io/en/latest/tutorial.html,下面直接开始,不在废话了。1.HMM简介2.代码实现import num原创 2021-02-19 16:31:00 · 583 阅读 · 0 评论 -
Cluster Analysis with Dirichlet Process Mixture Models
在一篇文章看到使用DPMM做聚类,网上很多关于Dirichlet Process的资料,很多关于DPMM的资料,但是没找着怎么用这个来做聚类,而且这个对数学要求太高了,看了两天硬是搞不懂是个啥,最后算是有一点点模糊地理解吧,但是也不知道理解得对不对(真是哭了),把对我理解最有用的资料放上来,有时间再看看吧。Gibbs sampling徐亦达关于Dirichlet Process的讲解Overview of Cluster Analysis and Dirichlet Process Mixture转载 2020-12-25 20:49:57 · 434 阅读 · 0 评论 -
The elbow method
记录一下the elbow method,今天看文章时看到了一个elbow method,特此记录一下,因为之前我写文章,经常会遇到需要设定阈值的情况,阈值的确定其实是不难,但是这个过程容易引入主观性,一旦引入主观性审稿人就会批你了,而elbow method其实就是一种敏感性分析,然后在敏感性分析过程中尽可能客观,简单而使用。1. The elbow method in clustering这个其实不是文章中提到的elbow method,而是查了下wiki,wiki上是这么说的:In cluste原创 2020-12-10 16:50:46 · 2184 阅读 · 3 评论 -
python 拟合对数正态分布
用python拟合对数正态分布使用的是scipy.stats.lognorm这个包,这个包的使用看官方文档就行,但是其中有一个很迷的地方,网上也有人提到了这个很迷的地方:关于scipy对数正态分布的误区,然后Stack Overflow里也有人给出了解释Stack Overflow大佬的解释说明,,其实Stack Overflow和官网都有解释,可能是我的英语还是太差了吧,导致始终觉得需要看好久才能理解,所以这里来记录下这个漏洞以及我给出的例子。...原创 2020-11-18 10:53:42 · 12308 阅读 · 3 评论 -
LDA主题模型
看了知乎上的的《达观数据》写的LDA主题模型介绍的文章,趁着刚看完记录下一些感受和理解,免得之后忘了,然后最近我也要利用这个模型做一个出行目的模式的探究,因此这个过程中有新的理解也会不断加入。...原创 2020-10-16 15:31:34 · 1278 阅读 · 1 评论 -
论文解读-土地性质和家庭性质对出行需求的时空影响
最近需要做出行目的方面的东西,于是看了一看之前课题组师姐做的一个研究,师姐做的还是很好哇,虽说这个研究和出行目的识别关系好像不是很大,但还是在此记录一下思路,毕竟是一个课题组的,还是对之后的研究有很大的借鉴意义啊。1.研究概述题目:Spatiotemporal influence of land use and household properties on automobile travel demand所采用的的数据:车牌识别数据、手机信令数据、POI数据、房价数据方法:使用的是geograph原创 2020-10-10 17:17:58 · 301 阅读 · 0 评论 -
断点回归法
其实很早之前就看了断点回归法了,但是后来没用就没继续学习了,最近又要研究政策影响定量分析,于是又去学习了一下断点回归法。0.预准备在学习断点回归法之前需要一些预备知识,可以按照下述的顺序学习。局部线性回归的学习工具变量与两阶段最小二乘法链接1,工具变量的解释,两阶段最小二乘法的介绍。看完上述3个链接应该是有一个基本的了解了。1.断点回归法断点回归法的简单了解可以看该链接,然后想要更详细的理解以及知道怎么实际操作的话则是强推陈强老师的《高级计量经济学及Stata应用》(需要pdf可以留言),这原创 2020-05-25 23:55:12 · 21453 阅读 · 19 评论 -
正交实验空白列的理解
正交实验设计简单接触正交实验设计很好地介绍了正交实验设计如何理解空白列spss做正交实验方差分析一篇写的不错的介绍文章关于空白列的理解正交实验有点难理解的是空白列的设置,我们都知道如果要用正交实验的结果来做方差分析,要么留有空白列,要么做重复测量,做重复测量很容易理解,因为重复测量可以得到组内变异,那么为什么有空白列也可以得到组内变异呢》...原创 2020-04-27 19:21:19 · 20557 阅读 · 0 评论 -
验证性因子分析
因子分析可以分为探索性因子分析(EFA)和验证性因子分析(CFA),探索性因子分析(EFA)我之前写过一篇文章介绍,这里不再展开,想看的可以点这。验证性因子分析(CFA)相对而言更复杂一点,而且就我的专业而言基本用不上,不过还是很有意思的所以今天也去了解了一下。想要了解一下的可以看邱皓政老师的《量化研究与统计分析:SPSS(PASW)数据分析范例解析》,然后看一下SPSSAU写的介绍性文章 an...原创 2020-04-25 20:50:24 · 11422 阅读 · 0 评论 -
入门下xgboost
查看自己电脑python的版本及需要下载的文件的对应版本,查看方法见此博文安装xgboost,见此博文转载 2020-04-21 13:05:35 · 202 阅读 · 0 评论 -
中介效应分析与路径分析
这篇文章主要是介绍中介效应分析及路径分析的概念,以及操作步骤,注意事项。 好多内容就是拷贝的邱皓政老师的《量化研究与统计分析:SPSS(PASW)数据分析范例解析》第12章节,然后在中间加入了少部分自己看的过程的一些理解吧。1.中介效应分析从上述的阐述可以知道,中介效应分析其实就是有一个变量充当了中介变量,X->Y是通过中介变量Z来传递影响的。如果是完全中介效应就是完全由Z来传递影...原创 2020-04-19 20:31:53 · 15499 阅读 · 9 评论 -
调节回归说明
本博文主要讲一下调节回归的概念,以及其操作流程和一些注意事项。对于本博文的概念部分建议可以直接看邱皓政老师的《量化研究与统计分析:SPSS(PASW)数据分析范例解析》第12章节,这样的话就不必看我写的了,然后博文中的注意事项或者说操作总结还是值得一看的。0.回归的一些基本概念看了这本书确实有很多新的理解,感谢,下面就直接放书里的概念了。1.调节回归概念我们都知道在回归中自变量可以分为...原创 2020-04-19 17:18:28 · 7908 阅读 · 2 评论 -
各相关性系数的概念
最近看了下《量化研究与统计分析:SPSS(PASW)数据分析范例解析》,本来是想看调节变量这一节内容的,后来看到相关关系这一部分,本来觉得相关性应该没啥了,看了后还是加深了很多理解,有很多东西之前都没了解到,或者说没这么系统的总结,接下来主要是梳理下各种相关系数的概念,包括连续变量间、有序变量、分类变量等相对应的相关关系。由于懒,好多就直接拷贝书里的了,加上一些我的理解吧!1.净相关和部分相关...原创 2020-04-18 21:36:40 · 11383 阅读 · 4 评论 -
python arima model预测问题
今天使用python做了arima model,其他都是没有问题的,但是在预测时遇到一个很大的问题,查了半天,中文英文都查了,文档也查了,似乎没有办法解决,可能是在python的statsmodels.tsa.arima_model设计过程中就是没有考虑这种情况吧。本文先讲一下使用python做arima model的一些基本情况和注意事项,然后讲一下存在的问题。1. statsmodels.t...原创 2020-04-06 19:57:42 · 3385 阅读 · 10 评论 -
问卷数据分析
spss做多元有序logistics回归可以参见这个例子:https://mp.weixin.qq.com/s?__biz=MzI2OTQyMzc5MA==&mid=2247490720&idx=1&sn=af6c9bf2bb3e4455a62858f44bca93a4&chksm=eae1d961dd96507740bc52644cc47cf3085ce04508...原创 2020-03-26 20:30:29 · 4307 阅读 · 0 评论 -
python curve_fit拟合失败
最近,使用curve_fit时遇到一个问题,百思不得其解,看了官网,上网查都没有找到这种问题所在,最后通过一些实验确定:应该是由于我这个问题中的数值存在较小值,如果在function中使用了除法会导致数值计算的问题,所以不正确。 接下来具体描述下我遇到的问题,和得出我这种猜测的支撑依据。1.问题描述在做交通流三参数模型拟合时,我使用了scipy的curve_fit函数。数据大概是这个样子的:...原创 2020-03-16 10:14:09 · 6532 阅读 · 6 评论 -
LERS LEM2
该博文主要写一下LERS(Learning from Examples using Rough Sets)中的LEM2算法。原创 2019-12-28 15:16:30 · 713 阅读 · 0 评论 -
粗糙集 rough set theory
最近看到一篇文章上有用到关于粗糙集的理论,所以到网上查了些资料学习了一下,目前应该脑子里有一个大致的概念了,知道这是干啥的,能够用来做些什么工作。接下来就记录下对我理解这个概念很有帮助的一些资料以及我自己的一些理解,然后把我看到的那篇论文上的关于粗糙集的case也写一下。————————————————————————————————————对我理解粗糙集很有帮助的一些资料王国胤, 姚一豫...原创 2019-12-25 22:10:27 · 796 阅读 · 0 评论 -
时间序列模型之Arima Model
Arima model应该是时间序列数据处理中最有名的方法之一了把,之前花了几周看了《Time Series Analysis with Application in R》的前12章,基本上是把基础的Arima模型都学完了,今天就按照R in Action中的代码依样画葫芦实际操作了一遍。Arima Model思路先写一下看完此书的一些感想把,具体的理论公式今天就先不写了,之后来补充把!首先...原创 2019-11-08 23:48:28 · 1198 阅读 · 2 评论 -
时间序列模型之指数模型(Holt-Winters Model)
今天学习了一下时间序列模型中的指数平滑模型。时间序列数据的常用模型包括:Holt-Winters Model以及著名的Arima Model。时间序列模型一般包含3种components:Trend ComponentSeasonal ComponentIrregular Component分别用来捕捉趋势、季节项和随记误差项。进而可以想到两种对各种成分的组合方式,分别是相加模型和...原创 2019-11-08 19:08:21 · 5024 阅读 · 0 评论 -
kmeans聚类详解
今天看了多元统计分析的聚类分析一章,终于算是对聚类分析有点理解了。Kmeans聚类是最简单的快速聚类方法了,目标就是按照给定的K,将所有样本按照类内尽可能紧凑,类间尽可能松散的原则来组织,得到k个簇。聚类方法:(1)从n个数据对象中取k个对象作为初始簇中心;(2)循环下述流程(3)到(4),直到每个聚类不再发生变化为止。(3)根据每个簇中对象的均值(中心对象),计算每个对象与这些对象的距...原创 2018-12-09 16:45:27 · 953 阅读 · 0 评论 -
非线性拟合/GAM
因为要用到GAM,但是网上资料很少,看到这篇博文,特地学习了一下,相对比较全面,感谢博主的分享,在此转载,希望更多人看到啦!!原文博客:https://blog.csdn.net/tongweiganglp/article/details/53422324参考:http://www-bcf.usc.edu/~gareth/ISL/ https://en.wikipedia.org/wiki/...转载 2019-02-27 19:51:46 · 7561 阅读 · 0 评论 -
R&SPSS重复测量方差分析
最近在做重复测量方差分析,真的是走了很多弯路,足足花费了我两周的时间,因此在此写一篇博文,希望能给其他人提供一些参考。先说建议:建议使用SPSS,不要使用R,会省很多精力,我用R做了3天,失败了,然后改用SPSS,花了1天就搞定,一方面是因为SPSS确实对用户很友好,而且很简单,另一方面也是因为SPSS有很多的教程,照着用就行了,很方便。接下来,我首先介绍我的项目背景吧,我是获得了某月一个城...原创 2019-04-20 23:52:08 · 14647 阅读 · 3 评论 -
训练集、测试集、验证集
训练集:确定模型的参数;验证集:确定模型的超参数;(如多项式的次数N)测试集:评估模型的泛化性能,选择最优模型;例子:色泽、根蒂、敲声来确定好瓜还是坏瓜。将数据分成训练集、验证集、测试集1、决策树模型,选定初始预剪枝的参数值,用训练集训练,生成模型;改变预剪枝参数值若干次,用训练集训练,生成若干模型,用验证集检验正确率,确定最优的预剪枝参数值;2、多项式回归,选定多项式次数N,用训练集训...原创 2019-04-29 12:40:00 · 4195 阅读 · 1 评论 -
PU Learning-two stage approach(两阶段法)-S-EM
最近遇到了一个问题,一堆数据集,但是只有正例标签(Positive),没有负例标签(Negative),这样的话,如果想要直接训练学习是很难的,因为这相当于训练集各个class分布极不均匀,根本无法训练,这时就需要用到机器学习中的PU learning了,也就是positive-unlabeled learning。PU learning有1种常见的解决思路——two stage approch...原创 2019-06-02 23:56:30 · 3845 阅读 · 8 评论 -
skilearn 高斯贝叶斯的一些理解
今天关于高斯朴素贝叶斯有一些新的理解,目前也尚存一些疑问,都记录下来,后续解决,如有朋友看到知道我的疑惑或我的理解中有错误的地方,请指正一下,谢谢!对于连续的属性,若要使用朴素贝叶斯来做分类,则最常见的有两种方式:连续属性离散化,然后就可以当做离散属性处理了;但是最常见的还是使用高斯贝叶斯来处理,我这边主要也是一些关于高斯贝叶斯的理解;理解1:高斯贝叶斯实际上是假设各个属性在各个类别...原创 2019-06-07 18:58:16 · 3303 阅读 · 0 评论 -
主成分分析和因子分析的介绍、区别和联系
本文介绍一下主成分分析、因子分析,进而介绍它们之间的区别和联系。两个方法的推导我也还有一些没有完全理解,因此中间有些理解可能有误,请大家批评指正主成分分析主成分分析:将多个有一定相关性的指标进行线性组合,以最少的维度解释原数据中尽可能多的信息为目标进行降维,降维后的各变量间彼此线性无关。从其介绍中我们可以知道,主成分分析实际上是将相关性很强的变量通过一定的线性组合合并成一个综合变量,达到降...原创 2019-07-14 00:46:00 · 55445 阅读 · 10 评论 -
QQ图
QQ图是统计学一种常用的图,但是今天上网查了一下竟然一下子没找到讲解的非常好的资料,一番搜索后发现了下面这篇文章,直观易懂,点赞点赞,特此转载。原文地址:https://mp.weixin.qq.com/s/_UTKNcOgKQcCogk2C2tsQQ...转载 2019-07-26 13:59:05 · 15242 阅读 · 4 评论