数洞

图床链接变化,很多配图无法显示,懒得改了。去今日头条关注“数据洞察指南”可以看到我的更多内容。...

Python量化基础:时间序列的平稳性检验

时间序列数据的平稳性对于我们采用什么样的分析方式、选择什么样的模型有着至关重要的影响。 我们想一下,假如一个时间序列的波动趋势从来没有稳定过,那么它每个时期的波动对于之后一段时期的影响都是无法预测的,因为它随时可能“变脸”。而当一个时间序列的特征维持稳定,比如它的均值和方差是稳定的,那么我们认为在...

2019-01-31 16:06:43

阅读数 1926

评论数 0

Python量化选股入门:资本资产定价模型(CAPM)

Markowitz的均值-方差模型告诉我们如何构建自己的投资组合,并且他本人凭借这一贡献获得了诺贝尔经济学奖。其核心目标是在达成投资目标的前提下,最小化资产的风险。 不过由于其计算量大、难度高、成本高(在当时的条件下),因此部分学者基于Markowitz的框架推导出了资本资产定价模型(CAPM),...

2019-01-10 23:34:54

阅读数 1997

评论数 2

Python绘制加强版K线图:增加均线及成交量

在之前,我们讲解了如何用Python绘制K线图。当时就有人问能否加入均线元素,当然能啦!不光均线,今天我还要把成交量给加上去。 获取数据并加工 为了计算年线(250日均线),我们需要保证数据至少在一年以上,所以我们获取17年以来上证综指的行情数据。 获取之后,我们同时保留两种格式的日期数据:mat...

2019-01-10 11:06:16

阅读数 1885

评论数 0

Python绘制简单版K线图

不管是对量化分析师还是普通的投资者来说,K线图(蜡烛图)都是一种很经典、很重要的工具。在K线图中,它会绘制每天的最高价、最低价、开盘价和收盘价,这对于我们理解股票的趋势以及每天的多空对比很有帮助。 一般来说,我们会从各大券商平台获取K线图,但是这种情况下获得的K线图往往不能灵活调整,也不能适应复杂...

2019-01-10 11:05:18

阅读数 1338

评论数 1

Python量化:评估投资组合的收益率和风险

不要把所有的鸡蛋放在同一个篮子里,这是投资界中历久弥新的至理名言。 为了避免风险,投资人往往会将资产分散到不同的金融工具中,比如信托、债券、基金、股票、期货、期权甚至房地产市场等。那么在这么多金融产品中,我们如何选择才能在风险可控的情况下获取尽可能高的收益呢?资产配置就是为了解决这个问题。 那么,...

2019-01-07 19:40:43

阅读数 890

评论数 0

Python量化教程:量化风险

今天,我们将介绍非常重要的一部分:风险的量化。今天主要会讲三种量化风险的方式:方差度量法、下行风险法、风险价值法。我们会从原理以及Python实战两个角度来学习。 我们开始今天的内容。 一、方差 1952年,Markowitz发表了均值-方差投资组合理论,在这套理论中他正式提出了用方差来描述...

2019-01-06 20:00:39

阅读数 1519

评论数 0

十分钟掌握多项式回归:拟合非线性关系

之前我们曾经学习了简单线性回归模型的推导、sklearn实战,并尝试从零搭建了一个简单线性回归的模型工具。 但是我们遇到的数据并不总是线性的,这时如果我们还拿线性模型去拟合,我们模型的效果就会大打折扣。不过不用担心,我们仍然可以使用线性回归的方法来拟合非线性的数据,只不过我们要先对输入数据做一些处...

2019-01-04 16:04:32

阅读数 315

评论数 0

特征选择与特征工程初探

特征工程是机器学习的第一步,涉及清理现有数据集、提高信噪比和降低维数的所有技术。大多数算法对输入数据有很强的假设,当使用原始数据集时,它们的性能可能会受到负面影响。 另外有些特征之间高度相关,在其中一个特征提供了足够的信息之后,与之相关的其他特征往往无法提供额外的信息。这时我们就需要了解如何减少特...

2019-01-03 10:22:29

阅读数 73

评论数 0

一天一图学Python可视化(2):让条形图更高级

温故知新: 在昨天,我们学习了使用seaborn.lmplot()来绘制回归图,用来表示变量之间的线性关系。它主要是在散点图的基础上,绘制了一条直线,而这条直线(也可以是曲线)则表明了模型预测的变量之间的关系。忘记的同学可以回去再看一遍。 今天,我们的目标是从一个小案例中学习以下几点: 调色板 ...

2018-12-26 11:04:55

阅读数 425

评论数 0

Python分析上证指数历史数据,发现估值还不够低……

今天我们的目的并不是完全掌握Python量化分析,仅仅是作为入门引领,开启一扇新的大门。在之后的日子里,我会不定时地分享更多关于时间序列分析、量化分析的内容,欢迎关注、收藏、转发! 最近股票行情不太好啊…… 可能很多朋友都想用Python分析一下股票数据,来看看自己的股票是否值得持有,或者判断...

2018-12-25 20:56:35

阅读数 950

评论数 0

一天一图学Python可视化(1):线性回归图

现代人的时间越来越碎片化,因此我们准备抛弃那种长篇大论的教程,希望大家每天花上几分钟就可以学到一个小窍门或者某种图的绘制方法。只要每天都认真看一遍文章,有时间的时候花几分钟练习一下,一段时间之后,相信大家就都成为Python可视化的高手啦! 接下来,我们目标不大,一天学习并掌握一个实用的小案例就够...

2018-12-25 14:16:28

阅读数 657

评论数 0

Seaborn中文教程(六):让图形更美观

让图形充满魅力是非常重要的。当我们探索一个数据集并且要进行可视化,那么,把图画得令人愉悦终究是不错的。可视化,是与听众交流大量信息时的核心方法,在这种情况下,让图形变得能瞬间抓住听众的注意非常有必要。 matplotlib支持高度的自定义,但是我们很难弄清楚应该如何调整才能让图片更具吸引力。Sea...

2018-12-23 02:38:16

阅读数 81

评论数 0

Seaborn中文教程(四):线性关系的展示

许多数据集含有多个定量变量(数值型变量),而我们分析的目的往往是将他们关联起来。我们曾讨论过通过两个变量的联合分布来实现这一点。然而,使用统计模型来为两组带有噪声数据的观测值评估出一个简单的关系可以是非常有用的。这一章节我们讨论的函数将会在线性回归的框架下实现这种预测。 seaborn中的回归图主...

2018-12-21 18:46:22

阅读数 154

评论数 0

Seaborn中文教程(五):通过“多图网格”结构化展示多维数据

当探索具有中等数量(不多不少的意思……)维度的数据集时,一个很好的方式是基于不同的子数据集构建不同的实例,并将它们以网格的方式组织在一张图之中。这种技术有时被称为“lattice”或“trellis”(大概是格子图、网格图),这跟“small multiples”的概念类似(多张更小的子图)。它能...

2018-12-21 18:45:01

阅读数 324

评论数 0

Seaborn中文教程(三):数据集的分布

当我们上手一个数据集时,往往第一件事就是了解每个变量是如何分布的。这一章节会简单地教大家如何在seaborn中检验一元分布和二元(维)分布。你也许会对如何对比一个变量在其他变量的不同水平下的分布有什么差异,在分类数据可视化教程中,你可以找到答案。 import numpy as np import...

2018-12-20 16:23:32

阅读数 242

评论数 0

Seaborn中文教程(二):分类数据可视化

在统计关系可视化教程中,我们学会了使用多种不同的方式来展示一个数据集中多个变量之间的关系。在一系列的例子中,我们聚焦于那些关系主要存在于两个数值型变量之间的情况。然而当其中一个变量是分类(离散)变量时,我们不妨使用更加有针对性的可视化方法。 在seaborn中,有多种不同的方式来展示包含了分类数据...

2018-12-19 20:19:00

阅读数 258

评论数 0

Seaborn中文教程(一):可视化变量间的关系

众所周知,Seaborn“可能”是Python下最友好、易用的可视化工具了,可视化效果也非常好。但是截止目前,并没有一份中文教程供广大国内Python使用者查阅学习。怎么能因为语言的问题,让大家错过这么好用的一个可视化工具呢? 思考再三,我决定花一些时间将官方的英文文档整理出来,为大家提供一份最...

2018-12-19 12:25:55

阅读数 394

评论数 2

快速掌握简单线性回归:从理论到实践

在统计学中,线性回归是利用称为线性回归方程的最小二乘函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。当因变量和自变量之间高度相关时,我们就可以使用线性回归来对数据进行预测。 一个带有一个自变量的线性回归方程代表一条直线,为了方便...

2018-12-17 19:55:55

阅读数 188

评论数 0

邻居来投票:机器学习之快速掌握K-近邻算法分类(Python实战)

K-近邻算法又称KNN算法(K-Nearest Neighbors),既可以用来解决分类问题,也可以用来解决回归问题。 如标题所言,KNN算法的核心原理就是让距离最近的“邻居们”来帮忙投票,邻居们决定预测对象的分类或者取值。 假设我们有一个已经标记好的数据集,我们知道这个数据集中每个样本的类别(标...

2018-12-12 18:32:07

阅读数 54

评论数 0

零基础Python数据分析实战:豆瓣人的电影口味重吗?

在上一篇文章中,我们实战使用urllib和BeautifulSoup抓取了关于豆瓣电影TOP250的非常丰富的信息,包括导演、编剧、演员、上映时间和地区、语言、别名、短评数、影评数、多少人想看、多少人看过等多达23个字段。 接下来,我们要做的就是对这些数据进行分析、挖掘,得到尽可能多的信息。毕竟有...

2018-12-10 17:28:30

阅读数 103

评论数 0

提示
确定要删除当前文章?
取消 删除