自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (7)
  • 收藏
  • 关注

原创 使用tushare数据画疫情感染人数地图

通过提取tushare疫情数据,画世界和中国地图。

2022-12-22 17:50:25 607 1

原创 决策树分类——附数据下载

又在网络上搜罗了几个,凑了几个决策树的例子,原理的部分直接略去,说白了就是

2021-10-06 20:59:52 5479 3

原创 因子分析——附数据下载

因子分析的主要目的是用来描述隐藏在一组测量到的变量中的一些更基本的,但又无法直接测量到的隐性变量 。与主成分分析相似,因子分析也具有降维的功能,但与主成分分析不同之处在于,因子分析是对主成分分析的扩展,提取出的公因子不仅考虑变量之间的相关性,还考虑了变量之间相关性的强弱,因此更容易解释其代表的含义。本文从网络上搜集了三个案例,对这些案例进行了整理,主要目的是为了说明因子分析的步骤,更容易看懂。数据下载在此(一个工作表是一份数据)因子分析步骤:(1)数据导入,进行KMO和Bartlett球形检验,判断是

2021-10-02 21:36:11 7446 37

原创 简单问题还是得简单处理

今天做了个数据整理的事,本来任务很简单,就是将某公司的利润表中的数据进行一下处理,只需要每一年年末的公报中的数据,其他的不要的都删掉,目的是观察一下该公司的运营情况。基本数据导入后如图:可以发现,公司会在不同时期发布公报,而且经常是一个日期有几条数据,但在重要指标上又基本相同,我的目标是只要每年12月31日的一条数据即可,没想到绕了一大圈最后还是简单处理了。问题出在这个日期上,常见的日期格式是xxxx-xx-xx,年-月-日的形式,中间有个分隔符,可这个日期数据就是个数字,不是日期,于是倒腾了半天用

2021-09-16 11:11:17 214

原创 金融学习之十七——使用Tushare绘制系统风险存在性

在股票投资中,投资者面临的除了收益外,还有相应的风险。根据风险是否可以规避,理论上讲风险划分为系统风险和非系统风险。系统风险是由于企业外部的宏观环境中各种不可抗因素的作用下而产生的风险,这些因素包括全球性或区域性恐慌、贸易争端、经济衰退、政府出台经济调控政策等等。对于系统风险,投资者无法提前感知和采取措施规避,也无法通过分散投资进行消除。而非系统风险则是由于企业自身的因素而引发的风险,这些因素包括财务风险、经营风险、信用风险、偶然事件风险等。非系统风险往往可以通过充分分散化投资的方式来进行消除。本讲主要想

2021-09-13 11:34:45 395 2

原创 金融学习之十六——资本市场线

前面两讲在进行投资组合配置时均只考虑到了有风险的资产,而实际在进行投资时,也有可能包含无风险资产(如国债),则在这种状况下进行投资,又会出现什么特点呢?这就要引出另一个概念——资本市场线。资本市场线(CML)是一条从无风险收益率引出的与有效前沿相切的一条直线,该直线的斜率仅与无风险收益率相关,因此当无风险收益率确定时,该直线也就确定下来了。在知乎上看到两张图片,对这个资本市场线的解释非常详细,于是我就借用过来,大致说说吧。文章地址为:从这张图中可以看出,资本配置线是当引入无风险资产后,从无风险收益率

2021-09-11 09:46:57 8399 1

原创 金融学习之十五——投资组合的有效前沿

前一讲我们已经说了如何计算一个投资组合的预期收益率和预期收益率的波动率。然而,人们在投资的时候,往往都是在风险相同的情况下,选择收益最大的配置方案,而在收益相同的情况下,会选择风险最小的配置方案。但上讲的内容在整个计算过程中,有一个问题是没有解决的:在什么配置情况下,我能获得最大的投资收益率?(收益最大)或者说,在投资收益率确定的情况下,什么配置能让我的波动率最小?(风险最小)这里就不得不引入一个概念:有效前沿。我们通常将一定资产所有可能的投资组合称为可行集,而有效前沿就是可行集的一条包络线,在有效前沿

2021-09-10 08:38:23 10328

原创 金融学习之十四——使用Tushare获取数据计算投资组合的预期收益率和波动率

为了降低风险,投资者在购买股票时往往会构建一个投资组合,以对冲风险和最大获益。在投资组合中,描述该投资组合效果的两个重要变量是预期收益率及其波动率。1.投资组合的预期收益率预期收益率的计算公式为:E(R)=E(∑k=1nwiRi\displaystyle \sum_{k=1}^n w_i R_ik=1∑n​wi​Ri​ )=[ w1,w2,w3...wn[ \displaystyle \ w_1,w_2,w_3...w_n[ w1​,w2​,w3​...wn​ ][ E

2021-09-09 11:30:24 4478

原创 金融学习之十三——数据去极值和标准化处理

拿到数据后,数据中可能会存在一些超大或极小的值,这些值与其他的值离得较远,显得格格不入,我们称其为离群点,有时也称为异常点。对于这些值,它的存在会导致影响最终的分析结果,带偏我们的分析。举个简单的例子,10个人的收入分别为2000,2500,2300,2425,2512,2375,2700,2265,2345,10000000,只算前9个,平均值就是2380,但加上最后一个,平均值就是1002144.2,就可能严重带偏最后分析的结果。因此,对于这样的数据,我们需要将其去除或修改。(一)数据去极值数据去极

2021-07-07 16:13:38 5615

原创 金融学习之十二——凸性

今天讨论另外一个概念,叫做凸性。什么是凸性呢?凸性也称为凸度或曲率,是衡量债券价格对债券到期收益率变化的非线性关系的指标,是债券价格对收益率的二阶导数。\为什么需要讨论凸性呢,我们可以看下面的例子(这个例子在金融学习第十一期讲过)例如:某债券剩余期限为4年,面值为100元,票面利率为2.95%,票息支付每年2次,到期收益率为3.8%(连续复利)。现假设连续复利的债券到期收益率变动了100个基点,从3.8%增至4.8%,重新计算债券的最新价格。根据在前面第十一期的介绍,可以知道债券的价格原本是96.742

2021-04-11 21:41:04 5452

原创 金融学习之十一——久期

久期是指债券投资者收到债券所有现金流需要等待的平均时间,久期可以分为麦考利久期、修正久期和美元久期。(一)麦考利久期债券价格B与连续复利的到期收益率y之间的关系可以表示为:B=∑k=1ncie−yti\displaystyle \sum_{k=1}^n c_i e^{-yt_i}k=1∑n​ci​e−yti​ (1)即债券价格等于所有未来将要支付的现金流现值之和。麦考利久期D可以表达为:D=∑k=1ncie−yti∗ti\displaystyle \sum_{k=1}^n c_i e^{-yt

2021-04-08 11:04:23 4910 1

原创 金融学习之十——远期利率和远期利率协议

一、远期利率有时企业会根据规划在未来的时间进行融资安排,如在1年后向银行借款,期限为3年,也就意味着企业的融资初始日是1年后,到期日则是4年后,这种发生在未来的交易即为“远期交易”,对于远期交易,零息利率是不适用的,那么就必须要使用远期利率。远期利率通常可以根据零息利率曲线上对应的即期利率求得。假设有债券在不同期限下的零息利率如下:期限1年2年3年4年5年零息利率(连续复利)2.5%2.8%3.2%3.7%4.5%现要求出第2-5年的远期利率。通过上述数据

2021-03-25 19:53:44 5630

原创 金融学习之九——票息剥离法求零息利率

计算债券零息利率通常采用票息剥离法。假设有下表:券名剩余期限(年)票面利率债券价格本金牛奔1号0.25099.42100牛奔2号0.5098.83100牛奔3号1.02.77% 每年付息一次100.09100牛奔4号1.53.46% 半年付息一次101.32100牛奔4号2.02.53% 半年付息一次99.39100计算这些债券的零息利率实际上就是在求解如下方程组中的r1—r5:(1)99.42*er1*0.

2021-03-23 12:13:56 5046

原创 金融学习之八——ARCH和GARCH模型应用

对衍生产品定价和风险管理中,常常需要对衍生产品的波动率进行预测,这就需要使用到波动率模型。常见的波动率模型有两个,一个是自回归条件异方差模型ARCH,另一个是广义自回归条件异方差模型GARCH。这两个模型的数学公式有点多,但如果只是跑代码的话就没那么麻烦,本次仅介绍这两个模型在python中的应用。我们希望根据2016-2018年的沪深300指数的涨跌幅构建波动率模型,步骤如下:(1)利用Tushare获取沪深300指数的数据因不知道沪深300指数的代码,所以先做了个查询import tushare

2021-03-06 16:15:30 5432 3

原创 金融学习之七——统计检验方法的使用

今天的内容有点无聊,主要是几个统计检验方法的应用,都是scipy模块中的stas子模块中的函数。几个统计检验分别是K-S检验,A-D检验,W检验和正态性检验。(1)K-S检验K-S检验是基于累计分布函数,用以检验一个分布是否服从某种理论分布,或比较两个分布是否存在显著差异。K-S检验所使用的函数是kstest,使用格式为:kstest(rvs,cdf,args,alternative)rvs是待检验样本,cdf指定检验的分布类型,args以元组形式输入分布函数中的相关参数,alternative默

2021-03-04 20:45:36 1072 1

原创 金融学习之六——投资比例最优化求解

假设现在有一家投资机构拟投资如下股票组合(名字瞎编的),下表为股票组合及其相关的价格、预测投资收益和β值,若欲投资总额为1亿元,以当前收盘价进行投资,并要求整个组合的β值不超过1.4,并且不考虑卖空等情况,如何配置该投资组合的比例才能获得最大收益?证券名称预测年化收益率当前收盘价β值暴富之星34.9032%590.011.64平安稳定15.5143%5.291.41小富即安13.2796%26.671.21随遇而安5.5905%6.501.

2021-03-03 17:39:58 1706

原创 金融学习之五——求解证券投资组合比例

假设现在已知一个证券组合不同时期的收益率以及该时期每支股票的收益率,现在想了解这个证券组合中各支股票的比例,数据如下:工商银行建设银行农业银行中国银行组合收益率0.3731%-0.001838%-0.003087%-0.024112%-0.0105654%0.021066%0.001842%-0.000344%0.011704%0.0070534%-0.004854%-0.016544%-0.033391%-0.029563%-0.025636

2021-02-28 21:16:57 959 1

原创 金融学习之四——插值法求远期国债收益率

今天来个简单的,使用插值法求远期国债利率。插值法使用的是scipy模块中的interpolate子模块的interp1d函数,注意这里的是数字1,不是英文字母l。函数的格式为interp1d(x,y,kind),x、y为给定数据,kind是插值方法。kind参数如下:参数名称插值方法nearest最邻近插值法zero0阶样条曲线插值法slinear1阶样条曲线插值法quadratic2阶样条曲线插值法cubic3阶样条曲线插值法假设有如下远期

2021-02-27 21:36:18 3358

原创 金融学习之三——晕头转向的alphalens

alphalens分析是一个进行单因子分析的开源项目。alphalens需要的数据有自己要求的格式,因此整个过程就分为两个部分:(a)处理数据,形成所需的格式(b)计算并理解数据的结果。下午跑了一遍前文书中提到的alphalens单因子有效性分析,程序是跑完了,可结果还有待看懂,大概的过程如下:(1)获取数据,进行初步处理import tushare as tsts.set_token('*********************************')pro=ts.pro_api()dat

2021-02-23 21:02:26 4010 1

原创 金融学习之二——稀里糊涂的回测

看到赵志强、刘志伟编的《Python量化投资技术、模型与策略》的策略回测这一章,打算自己动手弄弄,反正也没看懂,先照着敲敲代码再说。不得不吐槽一下,作者在前后逻辑上考虑的不是很周到,一些变量和语句前面不写,后面又冒出来了,让人猜了好久才猜明白。先简单说明一下所使用的双均线突破策略:(1)计算两根移动均线ma1,ma2,周期分别为len1,len2,其中len2>len2。说白了就是一个短期均线和一个长期均线。(2)若ma1上穿ma2时,即ma1>ma2时,平掉空头仓位,买入做多若ma1下

2021-02-20 21:27:11 453

原创 金融学习之一——使用Tushare获取数据并制图

Tushare是金融数据获取的重要来源之一,并且已经有了非常好的Python第三方包配合使用。Tushare的官方网站是Tushare官网,里面提供了大量的金融相关数据,非常适合平时的数据练手,但需要授权,即获取TOKEN(Tushare安装方法和授权方法请自行百度)。本次我们以简单的某支股票的收益率和自相关图为例,来说明其使用的基本过程。在Tushare官网中可以查到,获取股票信息的接口股票列表是stock_basic,我们随便选了一支代码为600258的股票(说实话,本人根本不知道这股票是啥,瞎玩的)

2021-02-18 17:37:03 1537

原创 一个有趣的实验

下午不务正业,做了一个小实验,场景是这样的:看到在一个微信群中,一群人乐此不疲的抢着红包,并玩着手气最好再次发红包的游戏。于是萌生出一个念头,如果假设所有人的钱都是一样多,然后按照这种发红包的方式将资金转移出去,经过多次转移,最后会出现什么现象??为了让这个问题变得更简单,我将场景稍微调整了一下,改为假设有100个人,所有人最初都拥有1元钱,每次每个人都随机的转移一定的资金出去给另一个人,看看最后会出现什么结果。基本代码如下:import numpy as nplist1=[]#初始时每个账户都有1块

2021-02-06 20:44:32 237

原创 解决seaborn数据无法导入的问题

使用seaborn进行绘图时,可能会发现数据导入的load_dataset出现无法导入的现象:原因大家都解释的很清楚了,是因为外网无法直接连接的问题。这里我们直接说解决方案:load_dataset的数据源是https://github.com/mwaskom/seaborn-data我们需要先将数据源的数据下载下来,方法也比较简单,先进入该数据源页面然后选择Download ZIP,将这个项目打包下载,下载完毕后,将这个压缩包解压后放在我们默认的目录下就好了(windows默认的是User)。

2021-02-04 17:36:07 2809 6

原创 淘宝众筹数据爬取(3)

前文的讲述已经可以将一个页面上的所有项目的项目名称、已筹金额、达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来。由此,我们可以形成我们的提取逻辑,先是爬一个页面的项目信息,特别是要提取到项目的链接地址,然后由此可以将这个页面内的所有项目的详细信息提取出来,最后将信息进行组装和存储。因此需要用到双重循环,一个用于爬取多个页面,另一个用于爬取这一个页面内的每个项目页面。首先引入所有需要的模块,这里又增加了几个,很重要的一个是让浏览器等待的WebDriv

2020-11-07 11:58:21 587

原创 淘宝众筹数据爬取(2)

第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了。CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给个赞或评论。上次说到爬取第一页的众筹项目信息,基本上已经拿到了大部分我们需要的内容,比如项目名称、已筹金额、达成率和支持人数。但针对做研究时,我们还希望能获取到项目的完全进展情况,比如了解每天的支持人数和金额情况,这个却是没有办法一次性搞定的(如果有大神知道,请赐教)。我的基本想法就很简单,那就每天定时收集一

2020-10-24 13:22:29 435

原创 用统计分析包和机器学习包做回归分析

今天来说说简单的线性回归,分别是用统计分析包statsmodels和机器学习包sklearn,数据来源是回归数据。这个例子网上已经写烂了,大家可以自行搜索看看。某公司在多个媒体渠道上发布了广告,业务人员想了解各媒体的广告费用对产品销售额的影响程度到底如何。数据结构如下所示:首先做个相关系数矩阵,看看是不是有相关关系:import pandas as pddata=pd.read_csv(r'回归.csv')data.corr()看上去,sales和其他变量都有那么些关系,感觉TV与sal

2020-10-22 16:21:19 239

原创 淘宝众筹数据爬取(1)

众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注。然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦。前文中我们已经了解了静态网页的数据爬取流程,现在我们来看看众筹数据是如何获取的。我们把目光放在了当前还能收集数据的淘宝众筹(现在改名叫造点新货),京东众筹现在正在维护改造,其他众筹网还没去关注,估计流程也差不多,就以淘宝众筹来进行学习练手吧。打开淘宝众筹的页面,选择全部项目,地址为:造点新货首页因为想观察项目的整个动态进展,我们的目

2020-10-20 11:15:25 1389

原创 词频统计和词云绘制

在前面我们已经提取了很多篇文章的内容,现在我们要对这些内容进行文本的词频统计和词云绘制,以观察热点内容。在前文中,提取出的文本里有许多不需要的字符,比如列表的符号,因为是以列表的形式进行提取和存储的。将列表转换为字符串,可以使用’’.join()方法,大家可以自行处理一下,这里不再赘述。词频统计的基本思路是将文本中所有的内容先进行分词,然后再进行停用词去除,停用词就是那些没有意义的词语,比如“的”,“那么”,“如果”等等。由于在结果中发现分词的结果还是存在很多不需要的词,因此先对它们进行了清洗。这里,我

2020-10-14 11:00:16 2039 2

原创 静态网页爬虫教程(5)带翻页的多篇文章内容提取和保存

这是我们静态页面爬取的最后一篇了,主要针对的问题是翻页爬取。

2020-10-12 20:05:12 1985 3

原创 静态网页爬虫教程(4)同一页面多篇文章内容提取和保存

前面的文章中,我们已经成功的完成了对一篇文章的内容提取和保存。现在新的问题又来了,之前我们提取过的超链接有那么多,标题也有不少,怎么能只提取一篇文章而放弃一堆呢?别急,下面我们就开始说说多篇文章的内容提取和保存。聪明的朋友肯定早就猜到了,接下来我们要做的就是循环,话不多说,开始折腾。 for k in range(len(reh)): urlt=reh[k] req=requests.get(urlt)

2020-10-12 10:35:27 672

原创 静态网页爬虫教程(3)文本的提取和保存

前面我们已经把文章的标题和超链接都提取出来了,看上去我们已经有能力把这些文章的内容全部提取出来了。但路要一步一步走,饭要一口一口吃,我们还是先来看一篇文章的内容是怎么提取和保存的吧。...

2020-10-12 09:28:00 783

原创 静态网页爬虫教程(2)链接和标题的提取

初战告捷,我们继续下一步,来获取网页中的标题和超链接。观察一下,第一篇文章是这样的:这篇文章的标题和超链接信息在我们返回的文本中是这样的:上面的表示是超链接的内容,而下面的则是表示是标题大小为4号字体 ,注意它们的标签。这个网站比较简单,它的文章标题直接用"<h4>“括起来了,所以直接用”<h4>"就可以搜索到所有标题;但链接就不行,因为<a>出现的地方比较多,不是所有的链接都是我们需要的,所以要另外处理。从返回的文本中提取内容可以使用正则表达式,需要引入r

2020-10-11 10:24:21 3092

原创 静态网页爬虫教程(1)页面的获取

最近想看看绿色金融方面的内容,也不知道搞啥,先在网上找找信息,于是把目标瞄上了新华财经——中国金融信息网。找到了其中的绿色金融的版块。发现上面的文章都是静态页面构成的,可以先把所有的页面信息爬取下来,然后再慢慢看。由于学得不是很扎实,就用最初级的方式,一步一步操作,以求能看懂。请求网页的方式主要是两种,一种是get方式,一种是post方式。post方式通常需要填写表单,用户需要填入相关信息提交后才能返回响应页面;而get方式不需要填写信息,可以直接获得对应页面。本文就从get方式说起。不论哪种方式,都

2020-10-11 09:39:11 752

原创 关于预测的那些问题,没搞明白

最近学习python在金融里的应用,看了好几篇同类型或内容相同的文章,说是用SVM、回归和神经网络等模型来预测HS300指数的涨跌趋势。基本逻辑大概都能懂,可有一个问题始终没搞明白。这些文章里提供的都是历史数据,你将历史数据分为训练集和测试集,然后用训练集跑得不亦乐乎,得到了一个所谓的模型。接着用测试集去测试这个模型的正确率。OK,测试集也能证明你的模型算是比较优秀吧,有时正确率也比较高。可最关键的问题却没有一个人提,就是这个模型即使再优秀,没地方用也是没啥意义的啊?!我到哪去给你找个未知的开盘、收盘、最高

2020-10-08 21:06:55 216

决策树案例数据.xlsx

与本博文一致的决策树的3个案例数据,可用于做决策树构建和分析

2021-10-06

因子分析数据.xlsx

3个案例的数据,可用于做因子分析

2021-10-02

线性回归使用数据.csv

数据为某公司三种销售渠道的广告投入和最终销售量,可以用于简单的线性回归分析和机器学习中的线性回归分析。

2020-10-22

accepts.csv

Python数据科学配套的操作数据,可以用数据分析。文件名为accepts.csv,主要是做逻辑回归分析时使用,也可用于决策树分类。数据大小和格式与书上的有点不同,需要自己重新梳理,不过网上有完整版的操作过程,请自行前往。

2020-03-14

自编简单的repast版JAVA生命游戏代码

自编的repast下的java版生命游戏代码,带配置文件说明,在eclipse下配置好直接可编译运行。

2012-04-17

社会科学计算实验--源代码

《社会科学计算实验基本教程》的配套源代码,下载平台后就可以运行

2012-02-22

中国物流配送研究报告

非常详细的关于物流配送行业的各项数据信息。

2011-09-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除