自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(517)
  • 资源 (6)
  • 收藏
  • 关注

原创 OFD[5]-第四章利率期货

即期利率和远期利率这一块,书上是有问题的。讲不清楚。比如说,对表4.1,计算第二年的远期利率的方式,是第一年10%,第二年10.5%的方式计算的,但计算第三年的远期利率,是前两年10.5%,第三年10.8%的方式计算,很奇怪,为什么不是第一年10%,第二年10.5%,第三年10.8%呢?百思不得其解。这个例子使用是非常不合适的。在这里 http://wiki.mbalib.com/wiki/%E8

2016-10-07 15:45:59 771

原创 OFD[4]-第三章 远期和期货价格-2

股票指数期货股票指数反应了一个假想的股票组合的价值变化。每种股票在组合里的权重等于投资组合中该股票的比例。股指期货是现金交割,不是实物交割。在最后一个交易日,所有合约盯市并且所有头寸必须轧平。(实际操作有些股指期货会选择次日的开盘指数,以避免某些波动)可以将股指期货视为红利率为qq的证券,那么在无风险利率rr下,其远期价格就是:F=Se(r−q)(T−t)F=Se^{(r-q)(T-t)}股指期货也

2016-10-03 12:22:31 597

原创 Spark的作业调度初步实践

1. 实践所使用的基本代码,是spark的java example。在作业调度实践里,将对这个代码稍作修改。其源码如下:--------------------------------------------------------------------------------------package com.magustek.spark.demo;import org.a

2016-09-28 09:09:45 596

原创 OFD[3]-第三章 远期和期货价格-1

连续复利年利率是R,那么,如果在一年内,将时间切成n分,那么每一份对应的利息是Rn\frac{R}{n},于是,在一年内,获得的复利就是 (1+Rn)n(1+\frac{R}{n})^n 如果nn趋进于无穷大,那么上式就是: (1+1n1R)n1RR=eR(1+\frac{1}{n\frac{1}{R}})^{n\frac{1}{R}R}=e^R 这是高数里的极限概念。那么, 如果一笔钱以利

2016-09-26 21:54:10 1415

原创 spark的作业调度问题

1. 文档来源http://spark.apache.org/docs/1.6.1/job-scheduling.html2. 调度策略spark有多种策略在计算之间进行资源规划。一个spark application,是一个spark应用。一个应用,有且仅有,对应且仅对应一个sparkContext。每一个应用,运行一组独立的executor processes。

2016-09-26 15:42:28 3209

原创 OFD[2]-第二章 期货市场和期货合约套期保值应用

期货如何交易?现在是三月,你告诉经纪人,在cbot上以市价买入7月的玉米期货合同5000蒲式耳.于是经纪人将你的指令传给cbot内的代表. 这个代表将这个指令传给场内某个交易员. 这个交易员估算下最佳价格,然后用手势向其他交易员表示要以这个最佳价格买下一个合约. 如果有人同意卖出7月份合约的空头给你,也就是它作为这个合约的空头,这个合约就达成了.如果没人卖, 交易员就必须提高价格,直到有人肯卖. 合

2016-09-25 14:47:14 1789

原创 OFD[1]-第一章 介绍

OFD[1]-第一章 介绍OFD是我对量化交易bible hull的《Options, Futures, and other derivative securities》的缩写。本博将逐章研究这本书。证券security。衍生证券derivative security也是一种证券,它的价值依赖于其他更基本标的。衍生证券可以依赖于任何变量,从生猪价格到滑雪胜地的降雪量,当然也包括利率汇率cpi债务股票

2016-09-24 12:17:24 2388

原创 史上最直白的朴素贝叶斯教程

贝叶斯公式设AA和BB是两个事件,根据全概率公式: P(A∩B)=P(B)P(A|B)=P(A)P(B|A)\begin{equation}P(A\cap B)=P(B)P(A|B)=P(A)P(B|A)\end{equation} 所以有: P(B)P(A|B)=P(A)P(B|A)\begin{equation}P(B)P(A|B)=P(A)P(B|A)\end{equation}

2015-12-22 16:26:46 3149 3

原创 史上最直白的LDA教程之二

史上最直白的LDA教程的pdf文档已经整理,并上传到csdn,链接如下:http://download.csdn.net/detail/u011539200/9361723

2015-12-16 16:46:32 1186

原创 史上最直白的LDA教程之一

前言LDA线性鉴别分析,又叫线性鉴别矢量,它是Ronald Fisher发明的,所以有时候又叫Fisher鉴别矢量,它的核化版本叫KFDA(Kernel Fisher Discriminant Analysis)。机器学习的分类问题 ,是一种有监督学习。所谓有监督,就是知道训练样本的类别。顾名思义,无监督学习就是没有样本的类别信息,比如PCA就是无监督学习,如我们前面推导过的PCA,不需要

2015-12-16 16:26:29 9648 3

原创 史上最直白的ICA教程之二

整个文档已经整理成pdf,文档在:http://download.csdn.net/detail/u011539200/9347083免积分,求人品。

2015-12-11 14:49:13 2173

原创 史上最直白的ICA教程之一

前言独立成分分析ICA是一个在多领域被应用的基础算法。ICA是一个不定问题,没有确定解,所以存在各种不同先验假定下的求解算法。相比其他技术,ICA的开源代码不是很多,且存在黑魔法–有些步骤并没有在论文里提到,但没有这些步骤是无法得到正确结果的。本文给出一个ICA最大似然解法的推导,以及FastICA的python实现,限于时间和实际需求,没有对黑魔法部分完全解读,只保证FastICA实现能得到正确结

2015-12-11 14:38:56 34463 19

原创 史上最直白的pca教程 之 二

pca的博文已经整理成一个完整的pdf文档,在这里下载:http://download.csdn.net/detail/u011539200/9305773不需要积分,累计人品,^_^

2015-11-27 16:48:26 1126

原创 史上最直白的pca教程 之 一

PCA理论推导X=⎛⎝⎜⎜⎜⎜x1,1x2,1...xm,1x1,2x2,2...xm,2............x1,nx2,n...xm,n⎞⎠⎟⎟⎟⎟X=\left(\begin{array}{cccc}x_{1,1} & x_{1,2} & ... & x_{1,n}\\x_{2,1} & x_{2,2} & ... & x_{2,n}\\... & ... & ..

2015-11-27 16:43:48 2835

原创 史上最直白的logistic regression教程 之 五

史上最直白的logistic regression教程整理稿,将4篇博文整理成一个完整的pdf文档,且修改成学术语境。链接在这里:http://download.csdn.net/detail/u011539200/92906950积分下载,求rp,^_^

2015-11-22 15:57:46 1734 2

原创 史上最直白的logistic regression教程 之 四

接上篇,用python实现logisitic regression,代码如下:#!/usr/bin/env python #! -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *#创建数据集def load_dataset(): n = 100 X = [[1, 0.005*xi] for

2015-11-19 16:19:26 1952

原创 史上最直白的logistic regression教程 之 三

在线性拟合的基础上,我们实现logistic regression了。如前所述,样本集是 {x1,y1},{x2,y2},...,{xn,yn}[1]\{x_1,y_1\}, \{x_2, y_2\}, ..., \{x_n, y_n\}[1] 其中,xi=[1,xi,1,xi,2,xi,3,...,xi,k]Tx_i=[1, x_{i,1}, x_{i,2},x_{i,3},...,x_{i,

2015-11-19 16:09:49 3072

原创 史上最直白的logistic regression教程 之 一

Logistic Regession是什么Logistic Regression是线性回归,但最终是用作分类器。 为什么叫Logistic呢?因为它使用了Logisitic函数,形如: f(z)=ezez+1=11+e−zf(z) = \dfrac{e^z}{e^z+1} = \dfrac{1}{1+e^{-z}} 这个函数有一些很有趣的性质,后面会谈到。先从一个最简单的问题开始假如有一组样

2015-11-17 15:11:38 23637 5

原创 史上最直白的logistic regression教程 之 二

实现线性拟合我们用python2.7实现上一篇的推导结果。请先安装python matplotlib包和numpy包。具体代码如下:#!/usr/bin/env python #! -*- coding:utf-8 -*-import matplotlib.pyplot as pltfrom numpy import *#创建数据集def load_dataset(): n = 100

2015-11-17 15:02:48 3357

原创 TensorFlow试用

Google发布了开源深度学习工具TensorFlow。根据官方教程  http://tensorflow.org/tutorials/mnist/beginners/index.md  试用。1. 安装    1.1 参考文档 http://

2015-11-10 16:10:42 21763 5

原创 weka实战005:基于HashSet实现的apriori关联规则算法

这个一个apriori算法的演示版本,所有的代码都在一个类。仅供研究算法参考package test;import java.util.Collections;import java.util.HashMap;import java.util.HashSet;import java.util.Iterator;import java.util.Vector;//用set

2015-05-27 06:33:28 982

原创 weka实战004:fp-growth关联规则算法

apriori算法的计算量太大,如果数据集略大一些,会比较慢,非常容易内存溢出。我们可以算一下复杂度:假设样本数有N个,样本属性为M个,每个样本属性平均有K个nominal值。1. 计算一项频繁集的时间复杂度是O(N*M*K)。2. 假设具有最小支持度的频繁项是q个,根据它们则依次生成一项频繁集,二项频繁集,....,r项频繁集合,它们的元素数量分别是:c(q, 1), c(q

2015-05-24 21:45:38 6657

原创 weka实战003:apriori关联规则算法的实现

weka实现的apriori算法是在weka.associations包的Apriror类。在这个类,挖掘关联规则的入口函数是public void buildAssociations(Instances instances),而instances就是数据集,检查数据,设置参数,初始化变量,然后,用一个do-while循环计算关联规则。如果你看过上一篇,就知道其实就是从一项频繁集开始,

2015-05-23 21:36:12 1660

原创 weka实战002:apriori关联规则算法

关联规则算法最出名的例子就是啤酒和尿布放一起卖。假如我去超市买东西,付款后,会拿到一张购物清单。这个清单就是一个Transaction。对关联规则算法来说,每个产品的购买数量是无意义的,不参与计算。许许多多的人买东西,生成了N个购物清单,也就是N个Transaction。那么,这些Transaction上的货物之间有什么有用的关系呢?这些关系可以用什么方式表达出

2015-05-22 07:30:15 5358

原创 Hadoop 1.x的Task,ReduceTask,MapTask随想

Hadoop的技术体系,最令人称赞的是细节。它的基本原理是非常容易理解的,细节是魔鬼。hadoop的hdfs是文件系统存储,它有三类节点namenode, scondraynamenode, datanode,前两种在集群分别只有一个节点,而datanode在集群有很多个。hdfs的解耦做的非常好,以至于它可以单独运行,做一个海量数据的文件存储系统。它可以跟mapreduce分别运行。

2015-05-14 21:05:39 1094

原创 Hadoop 1.x的Shuffle源码分析之3

shuffle有两种,一种是在内存存储数据,另一种是在本地文件存储数据,两者几乎一致。以本地文件进行shuffle的过程为例:mapOutput = shuffleToDisk(mapOutputLoc, input, filename, compressedLength)shuffleToDisk函数如下:private MapOutput

2015-05-13 21:59:11 970

原创 Hadoop 1.x的Shuffle源码分析之2

ReduceTask类的内嵌类ReduceCopier的内嵌类MapOutputCopier的函数copyOutput是Shuffle里最重要的一环,它以http的方式,从远程主机取数据:创建临时文件名,然后用http读数据,再保存到内存文件系统或者本地文件系统。它读取远程文件的函数是getMapOutput。getMapOutput函数如下:private MapOutput g

2015-05-13 07:59:01 1196

原创 Hadoop 1.x的Shuffle源码分析之1

先参考董西成的博文  http://dongxicheng.org/mapreduce/hadoop-shuffle-phase/   Hadoop中shuffle阶段流程分析Hadoop的一个任务执行过程,分为Map和Reduce两个阶段。而shuffle发生在Reducer阶段。Hadoop 1.2.1里,Reduce类的源码在org.apache.hadoop.map

2015-05-06 22:10:42 966

原创 weka实战001:一篇博文简单了解weka

关于weka 的简单介绍

2015-05-03 11:39:35 3754

原创 HBase 二次开发 java api和demo

1. 试用thrift python/java以及hbase client api,结论如下:    1.1 thrift的安装和发布繁琐,可能会遇到未知的错误,且hbase.thrift的版本在变化中。优点代码简单,需要打包的内容少。    1.2 hbase client api,需要的jar很多,发布版的容量也很大,打包后近百兆。优点是,明确,无歧义。2.

2014-11-12 11:23:49 2469

原创 apache oozie安装试用

oozie是hadoop的工作流Scheduler,最新的版本到4.0.1了。试用了下,小坑还蛮多的。1. 编译我的主机上跑的是Hadoop 1.1.2,选的是oozie 3.3.0版本,下载源码,解压缩。首先,要把源码里的javaversion从1.6改成1.7,主机是用jdk1.7。编译oozie,命令是'./bin/mkdistro.sh -DskipTests -Dha

2014-08-26 16:07:05 2548

原创 一个网站的诞生10--自动化部署

所谓自动部署就是说,如果用10台机器跑tornado程序提供Web服务,它们上面的代码都是一样的,这也叫生产环境。在公司写新代码,写好了,测试通过,这叫开发环境。然后执行自动部署程序,它把新代码提交到版本管理服务器,然后连上生产环境的10台服务器,让它们更新代码,再重启tornado程序,新代码就上线了,用户看到的就是新发布的网站。自动部署的关键是两个东西,一个是版本服务器,一个是远程操作

2014-08-20 13:02:28 1947

原创 一个网站的诞生09--自动监控

部署Web App,需要买一个域名,我推荐http://www.namecheap.com/,用信用卡或者paypal付款,一年10刀。如果需要VPS,买Linode.com的,它家新推出每月10刀的主机,性能绝佳,如果选择东京的机房,从大陆访问很快,用海外的主机不需要备案,这是最大的卖点。网站的tornado代码运行了,网站可以访问了。有时候网站会因为各种原因崩溃,比如被攻击,代码b

2014-08-19 20:47:24 1189

原创 一个网站的诞生08-- 在Web App嵌入地图

LBS-Location Based Service,基于位置的服务。如果要在Web App嵌入地图,差不多可以做成LBS了。zuijiancanting.com的设计理念,是把Top餐厅放在地图上,那么当你到某个地方逛逛,或者有约会,拖拉一下地图就可以找到合适的餐厅。提供地图API服务的公司很多,国外有GoogleMap,OpenStreetMap,国内有百度地图,腾讯地图,高德地图

2014-08-17 20:50:02 2162

原创 一个网站的诞生07-- Tornado Web Server

用Spider抓取数据,然后再做各种处理,然后放到web页面供大家使用。那么,就需要一个Web Server。几乎每种语言都有一大堆Web Server开发框架,Python也不例外,比如这里http://www.zhihu.com/question/20706333。廖雪峰同学还有个python的教程http://www.liaoxuefeng.com/wiki/00137473

2014-08-15 15:05:17 1685

原创 一个网站的诞生06-- ORM

网站上的数据,存在数据库里。一般用Mysql,也有用sqlite,Postgre。操作数据库要会SQL语言,这个有点麻烦,常常需要查手册。此外,每家数据库在实现SQL语言的时候,常常会加料,增加一些自己独有的东西。而且,SQL语言不是面向对象/基于对象,很多抽象更高的东西不能使用。于是,ORM就出现了。ORM是Object Relation Model,也就是 对象关系映射

2014-08-12 18:14:45 1418

原创 一个网站的诞生05--如何把网站做到估值过亿

网站的意义,在于创造对用户有价值的东西,估值是网站意义的一个衡量指标,提升估值的手段,也就等价于把网站做得更有用。如何计算一个网站的估值?国际标准是每个活跃用户的价值是40刀左右,Whatsapp卖了190亿刀,它有4.5亿活跃用户。中国略有差别,微信的估值是40亿~50亿刀,有3亿用户,但中国的用户商业价值不够高,人均GDP太低,所以每个活跃用户的价值是10~15刀,也就是RMB60

2014-08-11 21:54:24 2348 1

原创 一个网站的诞生04--抓取一个餐厅的某个月的全部评论

第一个Spider是抓上海的城市id,顺带抓它的下一级行政区id。第二个Spider是抓上海的Top一万家餐厅的Shopid。本文是第三个Spider,根据一个餐厅的Shopid,抓取它在某个月内的全部评论。三个Spider的累加效果,就是抓取任意一个城市的TopN家餐厅的全部评论。第三个Spider修改一下,还可以做到只抓取某天的评论,只抓取某人的评论,从抓取的角度看就全

2014-08-07 17:27:02 2008

原创 一个网站的诞生03--抓取评论数最多的一万家餐厅

在大众点评网上,有很多种方式对餐厅进行排序,比如http://www.dianping.com/search/category/1/10/o10,是上海全市按照评论总数最多对餐厅进行排序,下面有50个分页,也就是上海历年累计评论综述最多的750家餐厅。但只有750家,少了点。上海有18个区,逐区点击的话,每区都会显示前750家餐厅,比如这个http://www.dianping.com/searc

2014-08-06 13:39:05 2478

原创 一个网站的诞生02--用Scrapy抓取数据

如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。有各种语言版本的开源爬虫,c++, Java,  php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个

2014-08-04 17:21:50 4141

评分卡模型理论推导-草稿

评分卡模型理论推导,草稿版。

2018-12-20

史上最直白的lda教程

史上最直白的lda教程的pdf文档,0积分下载。求rp。

2015-12-16

史上最直白的pca教程

史上最直白的pca教程,整理文档,一个完整的pdf文件。

2015-11-27

史上最直白的logistic regression教程整理稿

史上最直白的logistic regression教程整理稿。讲4篇博文整理成一个完整的pdf文档。且修改成学术语境。

2015-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除