未济2019-CSDN博客

原创 OFD[5]-第四章利率期货

即期利率和远期利率这一块，书上是有问题的。讲不清楚。比如说，对表4.1，计算第二年的远期利率的方式，是第一年10%，第二年10.5%的方式计算的，但计算第三年的远期利率，是前两年10.5%，第三年10.8%的方式计算，很奇怪，为什么不是第一年10%，第二年10.5%，第三年10.8%呢？百思不得其解。这个例子使用是非常不合适的。在这里 http://wiki.mbalib.com/wiki/%E8

2016-10-07 15:45:59 771

原创 OFD[4]-第三章远期和期货价格-2

股票指数期货股票指数反应了一个假想的股票组合的价值变化。每种股票在组合里的权重等于投资组合中该股票的比例。股指期货是现金交割，不是实物交割。在最后一个交易日，所有合约盯市并且所有头寸必须轧平。（实际操作有些股指期货会选择次日的开盘指数，以避免某些波动）可以将股指期货视为红利率为qq的证券，那么在无风险利率rr下，其远期价格就是:F=Se(r−q)(T−t)F=Se^{(r-q)(T-t)}股指期货也

2016-10-03 12:22:31 597

原创 Spark的作业调度初步实践

1. 实践所使用的基本代码，是spark的java example。在作业调度实践里，将对这个代码稍作修改。其源码如下：--------------------------------------------------------------------------------------package com.magustek.spark.demo;import org.a

2016-09-28 09:09:45 596

原创 OFD[3]-第三章远期和期货价格-1

连续复利年利率是R，那么，如果在一年内，将时间切成n分，那么每一份对应的利息是Rn\frac{R}{n}，于是，在一年内，获得的复利就是 (1+Rn)n(1+\frac{R}{n})^n 如果nn趋进于无穷大，那么上式就是： (1+1n1R)n1RR=eR(1+\frac{1}{n\frac{1}{R}})^{n\frac{1}{R}R}=e^R 这是高数里的极限概念。那么，如果一笔钱以利

2016-09-26 21:54:10 1415

原创 spark的作业调度问题

1. 文档来源http://spark.apache.org/docs/1.6.1/job-scheduling.html2. 调度策略spark有多种策略在计算之间进行资源规划。一个spark application，是一个spark应用。一个应用，有且仅有，对应且仅对应一个sparkContext。每一个应用，运行一组独立的executor processes。

2016-09-26 15:42:28 3209

原创 OFD[2]-第二章期货市场和期货合约套期保值应用

期货如何交易?现在是三月,你告诉经纪人,在cbot上以市价买入7月的玉米期货合同5000蒲式耳.于是经纪人将你的指令传给cbot内的代表. 这个代表将这个指令传给场内某个交易员. 这个交易员估算下最佳价格,然后用手势向其他交易员表示要以这个最佳价格买下一个合约. 如果有人同意卖出7月份合约的空头给你,也就是它作为这个合约的空头,这个合约就达成了.如果没人卖, 交易员就必须提高价格,直到有人肯卖. 合

2016-09-25 14:47:14 1789

原创 OFD[1]-第一章介绍

OFD[1]-第一章介绍OFD是我对量化交易bible hull的《Options, Futures, and other derivative securities》的缩写。本博将逐章研究这本书。证券security。衍生证券derivative security也是一种证券，它的价值依赖于其他更基本标的。衍生证券可以依赖于任何变量，从生猪价格到滑雪胜地的降雪量，当然也包括利率汇率cpi债务股票

2016-09-24 12:17:24 2388

原创史上最直白的朴素贝叶斯教程

贝叶斯公式设AA和BB是两个事件，根据全概率公式： P(A∩B)=P(B)P(A|B)=P(A)P(B|A)\begin{equation}P(A\cap B)=P(B)P(A|B)=P(A)P(B|A)\end{equation} 所以有： P(B)P(A|B)=P(A)P(B|A)\begin{equation}P(B)P(A|B)=P(A)P(B|A)\end{equation}

2015-12-22 16:26:46 3149 3

原创史上最直白的LDA教程之二

史上最直白的LDA教程的pdf文档已经整理，并上传到csdn，链接如下：http://download.csdn.net/detail/u011539200/9361723

2015-12-16 16:46:32 1186

原创史上最直白的LDA教程之一

前言LDA线性鉴别分析，又叫线性鉴别矢量，它是Ronald Fisher发明的，所以有时候又叫Fisher鉴别矢量，它的核化版本叫KFDA(Kernel Fisher Discriminant Analysis)。机器学习的分类问题，是一种有监督学习。所谓有监督，就是知道训练样本的类别。顾名思义，无监督学习就是没有样本的类别信息，比如PCA就是无监督学习，如我们前面推导过的PCA，不需要

2015-12-16 16:26:29 9648 3

原创史上最直白的ICA教程之二

整个文档已经整理成pdf，文档在：http://download.csdn.net/detail/u011539200/9347083免积分，求人品。

2015-12-11 14:49:13 2173

原创史上最直白的ICA教程之一

前言独立成分分析ICA是一个在多领域被应用的基础算法。ICA是一个不定问题，没有确定解，所以存在各种不同先验假定下的求解算法。相比其他技术，ICA的开源代码不是很多，且存在黑魔法–有些步骤并没有在论文里提到，但没有这些步骤是无法得到正确结果的。本文给出一个ICA最大似然解法的推导，以及FastICA的python实现，限于时间和实际需求，没有对黑魔法部分完全解读，只保证FastICA实现能得到正确结

2015-12-11 14:38:56 34463 19

原创史上最直白的pca教程之二

pca的博文已经整理成一个完整的pdf文档，在这里下载：http://download.csdn.net/detail/u011539200/9305773不需要积分，累计人品，^_^

2015-11-27 16:48:26 1126

原创史上最直白的pca教程之一

PCA理论推导X=⎛⎝⎜⎜⎜⎜x1,1x2,1...xm,1x1,2x2,2...xm,2............x1,nx2,n...xm,n⎞⎠⎟⎟⎟⎟X=\left(\begin{array}{cccc}x_{1,1} & x_{1,2} & ... & x_{1,n}\\x_{2,1} & x_{2,2} & ... & x_{2,n}\\... & ... & ..

2015-11-27 16:43:48 2835

原创史上最直白的logistic regression教程之五

史上最直白的logistic regression教程整理稿，将4篇博文整理成一个完整的pdf文档，且修改成学术语境。链接在这里：http://download.csdn.net/detail/u011539200/92906950积分下载，求rp，^_^

2015-11-22 15:57:46 1734 2

原创史上最直白的logistic regression教程之四

接上篇，用python实现logisitic regression，代码如下：#!/usr/bin/env python #! -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *#创建数据集def load_dataset(): n = 100 X = [[1, 0.005*xi] for

2015-11-19 16:19:26 1952

原创史上最直白的logistic regression教程之三

在线性拟合的基础上，我们实现logistic regression了。如前所述，样本集是 {x1,y1},{x2,y2},...,{xn,yn}[1]\{x_1,y_1\}, \{x_2, y_2\}, ..., \{x_n, y_n\}[1] 其中，xi=[1,xi,1,xi,2,xi,3,...,xi,k]Tx_i=[1, x_{i,1}, x_{i,2},x_{i,3},...,x_{i,

2015-11-19 16:09:49 3072

原创史上最直白的logistic regression教程之一

Logistic Regession是什么Logistic Regression是线性回归，但最终是用作分类器。为什么叫Logistic呢？因为它使用了Logisitic函数，形如： f(z)=ezez+1=11+e−zf(z) = \dfrac{e^z}{e^z+1} = \dfrac{1}{1+e^{-z}} 这个函数有一些很有趣的性质，后面会谈到。先从一个最简单的问题开始假如有一组样

2015-11-17 15:11:38 23637 5

原创史上最直白的logistic regression教程之二

实现线性拟合我们用python2.7实现上一篇的推导结果。请先安装python matplotlib包和numpy包。具体代码如下:#!/usr/bin/env python #! -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *#创建数据集def load_dataset(): n = 100

2015-11-17 15:02:48 3357

原创 TensorFlow试用

Google发布了开源深度学习工具TensorFlow。根据官方教程 http://tensorflow.org/tutorials/mnist/beginners/index.md 试用。1. 安装 1.1 参考文档 http://

2015-11-10 16:10:42 21763 5

原创 weka实战005：基于HashSet实现的apriori关联规则算法

这个一个apriori算法的演示版本，所有的代码都在一个类。仅供研究算法参考package test;import java.util.Collections;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.Vector;//用set

2015-05-27 06:33:28 982

原创 weka实战004：fp-growth关联规则算法

apriori算法的计算量太大，如果数据集略大一些，会比较慢，非常容易内存溢出。我们可以算一下复杂度：假设样本数有N个，样本属性为M个，每个样本属性平均有K个nominal值。1. 计算一项频繁集的时间复杂度是O(N*M*K)。2. 假设具有最小支持度的频繁项是q个，根据它们则依次生成一项频繁集，二项频繁集，....，r项频繁集合，它们的元素数量分别是：c(q, 1), c(q

2015-05-24 21:45:38 6657

原创 weka实战003：apriori关联规则算法的实现

weka实现的apriori算法是在weka.associations包的Apriror类。在这个类，挖掘关联规则的入口函数是public void buildAssociations(Instances instances)，而instances就是数据集，检查数据，设置参数，初始化变量，然后，用一个do-while循环计算关联规则。如果你看过上一篇，就知道其实就是从一项频繁集开始，

2015-05-23 21:36:12 1660

原创 weka实战002：apriori关联规则算法

关联规则算法最出名的例子就是啤酒和尿布放一起卖。假如我去超市买东西，付款后，会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说，每个产品的购买数量是无意义的，不参与计算。许许多多的人买东西，生成了N个购物清单，也就是N个Transaction。那么，这些Transaction上的货物之间有什么有用的关系呢？这些关系可以用什么方式表达出

2015-05-22 07:30:15 5358

原创 Hadoop 1.x的Task，ReduceTask，MapTask随想

Hadoop的技术体系，最令人称赞的是细节。它的基本原理是非常容易理解的，细节是魔鬼。hadoop的hdfs是文件系统存储，它有三类节点namenode, scondraynamenode, datanode，前两种在集群分别只有一个节点，而datanode在集群有很多个。hdfs的解耦做的非常好，以至于它可以单独运行，做一个海量数据的文件存储系统。它可以跟mapreduce分别运行。

2015-05-14 21:05:39 1094

原创 Hadoop 1.x的Shuffle源码分析之3

shuffle有两种，一种是在内存存储数据，另一种是在本地文件存储数据，两者几乎一致。以本地文件进行shuffle的过程为例：mapOutput = shuffleToDisk(mapOutputLoc, input, filename, compressedLength)shuffleToDisk函数如下：private MapOutput

2015-05-13 21:59:11 970

原创 Hadoop 1.x的Shuffle源码分析之2

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环，它以http的方式，从远程主机取数据：创建临时文件名，然后用http读数据，再保存到内存文件系统或者本地文件系统。它读取远程文件的函数是getMapOutput。getMapOutput函数如下：private MapOutput g

2015-05-13 07:59:01 1196

原创 Hadoop 1.x的Shuffle源码分析之1

先参考董西成的博文 http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/ Hadoop中shuffle阶段流程分析Hadoop的一个任务执行过程，分为Map和Reduce两个阶段。而shuffle发生在Reducer阶段。Hadoop 1.2.1里，Reduce类的源码在org.apache.hadoop.map

2015-05-06 22:10:42 966

原创 weka实战001：一篇博文简单了解weka

关于weka 的简单介绍

2015-05-03 11:39:35 3754

原创 HBase 二次开发 java api和demo

1. 试用thrift python/java以及hbase client api，结论如下： 1.1 thrift的安装和发布繁琐，可能会遇到未知的错误，且hbase.thrift的版本在变化中。优点代码简单，需要打包的内容少。 1.2 hbase client api，需要的jar很多，发布版的容量也很大，打包后近百兆。优点是，明确，无歧义。2.

2014-11-12 11:23:49 2469

原创 apache oozie安装试用

oozie是hadoop的工作流Scheduler，最新的版本到4.0.1了。试用了下，小坑还蛮多的。1. 编译我的主机上跑的是Hadoop 1.1.2，选的是oozie 3.3.0版本，下载源码，解压缩。首先，要把源码里的javaversion从1.6改成1.7，主机是用jdk1.7。编译oozie，命令是'./bin/mkdistro.sh -DskipTests -Dha

2014-08-26 16:07:05 2548

原创一个网站的诞生10--自动化部署

所谓自动部署就是说，如果用10台机器跑tornado程序提供Web服务，它们上面的代码都是一样的，这也叫生产环境。在公司写新代码，写好了，测试通过，这叫开发环境。然后执行自动部署程序，它把新代码提交到版本管理服务器，然后连上生产环境的10台服务器，让它们更新代码，再重启tornado程序，新代码就上线了，用户看到的就是新发布的网站。自动部署的关键是两个东西，一个是版本服务器，一个是远程操作

2014-08-20 13:02:28 1947

原创一个网站的诞生09--自动监控

部署Web App，需要买一个域名，我推荐http://www.namecheap.com/，用信用卡或者paypal付款，一年10刀。如果需要VPS，买Linode.com的，它家新推出每月10刀的主机，性能绝佳，如果选择东京的机房，从大陆访问很快，用海外的主机不需要备案，这是最大的卖点。网站的tornado代码运行了，网站可以访问了。有时候网站会因为各种原因崩溃，比如被攻击，代码b

2014-08-19 20:47:24 1189

原创一个网站的诞生08-- 在Web App嵌入地图

LBS-Location Based Service，基于位置的服务。如果要在Web App嵌入地图，差不多可以做成LBS了。zuijiancanting.com的设计理念，是把Top餐厅放在地图上，那么当你到某个地方逛逛，或者有约会，拖拉一下地图就可以找到合适的餐厅。提供地图API服务的公司很多，国外有GoogleMap，OpenStreetMap，国内有百度地图，腾讯地图，高德地图

2014-08-17 20:50:02 2162

原创一个网站的诞生07-- Tornado Web Server

用Spider抓取数据，然后再做各种处理，然后放到web页面供大家使用。那么，就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架，Python也不例外，比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473

2014-08-15 15:05:17 1685

原创一个网站的诞生06-- ORM

网站上的数据，存在数据库里。一般用Mysql，也有用sqlite，Postgre。操作数据库要会SQL语言，这个有点麻烦，常常需要查手册。此外，每家数据库在实现SQL语言的时候，常常会加料，增加一些自己独有的东西。而且，SQL语言不是面向对象/基于对象，很多抽象更高的东西不能使用。于是，ORM就出现了。ORM是Object Relation Model，也就是对象关系映射

2014-08-12 18:14:45 1418

原创一个网站的诞生05--如何把网站做到估值过亿

网站的意义，在于创造对用户有价值的东西，估值是网站意义的一个衡量指标，提升估值的手段，也就等价于把网站做得更有用。如何计算一个网站的估值？国际标准是每个活跃用户的价值是40刀左右，Whatsapp卖了190亿刀，它有4.5亿活跃用户。中国略有差别，微信的估值是40亿~50亿刀，有3亿用户，但中国的用户商业价值不够高，人均GDP太低，所以每个活跃用户的价值是10～15刀，也就是RMB60

2014-08-11 21:54:24 2348 1

原创一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id，顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider，根据一个餐厅的Shopid，抓取它在某个月内的全部评论。三个Spider的累加效果，就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下，还可以做到只抓取某天的评论，只抓取某人的评论，从抓取的角度看就全

2014-08-07 17:27:02 2008

原创一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上，有很多种方式对餐厅进行排序，比如http://www.dianping.com/search/category/1/10/o10，是上海全市按照评论总数最多对餐厅进行排序，下面有50个分页，也就是上海历年累计评论综述最多的750家餐厅。但只有750家，少了点。上海有18个区，逐区点击的话，每区都会显示前750家餐厅，比如这个http://www.dianping.com/searc

2014-08-06 13:39:05 2478

原创一个网站的诞生02--用Scrapy抓取数据

如果想抓数据，就需要有爬虫程序，业内叫crawler或者spider。有各种语言版本的开源爬虫，c++, Java, php，在github上搜一下，以"spider c++"为关键字，有245个开源爬虫，以"spider java"为关键字，有48个。那python呢？156个。爬虫技术在业界已经很成熟了，有很多开源框架，在它们的帮助下写爬虫可以很快，几个小时就能写一个

2014-08-04 17:21:50 4141

评分卡模型理论推导-草稿

史上最直白的lda教程

史上最直白的pca教程

史上最直白的logistic regression教程整理稿

空空如也