probit模型 probit模型@(机器学习)[probit|logit] 今天看计算广告学,谈到最大熵与指数簇的一些关系,网上查资料,期间发现这个probit模型的概念,以前竟然完全没听过。因此花点时间来搞懂,网上的资料并不是很详细,因此形成一篇博客,分享给大家。probitprobit:多元概率比回归模型。学习一定要和logit regression进行对比,都是一种广义线性模型,事件发生的概率依赖于解释变量
量化交易-4-zipline回测例子 量化交易-4-zipline回测例子@(金融)上一篇讲到,自己有了一个策略,两根线,上穿买入,下穿,卖出。因此需要一个回测工具,评判策略优劣。在网上寻找了一下, 初步打算使用zipline来进行回测。 由于zipline的demo使用是美股,我稍作修改,使用了自己A股,并且对demo进行了分析,然后将demo的策略换做自己的demo进行分析。替换美股为A股替换美股为A股,稍微需要修改一些地方 1
量化交易-K线图 量化交易-K线图@(金融)K线图在股票的分析中,图占了很大一席。因此首先来学习画K线图。def draw_tianbijun(stock): ''' 先画田碧君的趋势图片 K线以及公式图片一起画 ''' dl = DownLoad() raw_data = dl.load_data(stock) #raw_data.index = raw_da
量化交易-2-数据获取 量化交易-2@(金融)数据获取,加载通过tushare获取数据,不能每次都去请求,一般可以加载到本地存储,我选择存储到mysql,以后获取的时候,可以去mysql加载。然后每天更新数据就好了。数据存储模块如下 def down_history(self, stock): ''' 下载历史至今天的数据,可以用于下载新股票 date,open,hig
量化交易-1 量化交易-1@(金融)前言自从换工作以来,浪费了不少时间。最近股市不是大热嘛,在利益的驱动下,入了股市,在什么都不懂的情况下,就在股市高点入场,然后韭菜就被割了。痛定思痛,在研究一些金融知识的情况下,结合自己的长处,逐渐对量化交易产生了兴趣。在做了初步的了解学习后,打算进行深入的学习。在此重新开始博客,记录学习过程,一步一步前行。环境搭建目前配置的环境 windows 7 数据获取:tushar
文本特征提取 前言@(NLP)[IG,X2,CE] TF-IDF可以有效的评估一个字词对于一个文件集或一个语料库的重要程度。但在文本分类中,它的区分度不够,没有考虑特征词在类间的分布。也就是选择特征应该在某类出现多,而其它类出现少。也没有考虑特征词在类内部文档的分布情况,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征。 特征提取的目的在于降维。卡方特征提取卡方检验最基本的思想是通过观察实际值
python 装饰器 装饰器研究装饰器种类装饰器分为两类,一种是不需要参数的装饰器,另一种需要带参数。 下面展示一个不带参数的装饰器,实现简单的类似AOP功能,记录函数运行时间,或者记录日志等。def running_time(func): @functools.wraps(func) #备注 def wrapper(*args, **kw): start_time = time.ti
奇异值分解(SVD)应用简介 一:前言 千里之行,始于足下,新的一年开始了,努力提升自己,从点滴做起。总结一下过去半年的工作。二:SVD在短文本相似度的应用 文本相似度计算中比较有名的算法Latent Semantic Analysis(LSI/LSA),就是用的SVD技术,将文档—词语矩阵(bag of words方法,或者TF,TF-IDF等)进行分解,构造低维的语义空间。用过的开源工具
文本分类小结 一:特征提取文本分类中一个重要的工作部分就是特征提取。常见的特征词提取方法有卡方,信息增益,信息增益比,期望KL距离等。链接http://blog.csdn.net/fighting_one_piece/article/details/37912051,这篇博客讲的十分详细,就不重复写了。不同的特征提取方法,会有自己的特点,用不同的分类的方法,效果也不一样,不能一概而论(遇到过数据集特征提
最大熵与逻辑回归的等价性 一:前言大概了解过逻辑回归与最大熵模型有些关系,但是一直没有理清楚。这次稍微深入理解了一下。逻辑回归是最大熵对应类别为两类时的特殊情况,也就是当逻辑回归类别扩展到多类别时,就是最大熵。下面会详细的进行证明。本文只是一个copy版本,内容源自:首先我们引入一些符号。假定输入是一个n维空间的实数向量。(考虑到公式在这里展示不好看,以图片的格式呈现)
奇异值分解SVD原理探讨 一:前言 写在前面,因为涉及到公式,选择了以图片的方式发。内容都是个人的一些理解,借鉴了网上的很多资料,因为太多,而且是几个月前写下的,这里实在没法一一列举参考文献了。 理解SVD的一些要点知识。1)矩阵本身的意义 2)矩阵乘法的意义
Spark存储与读取文件方法小结 一:Spark中常常面临这RDD的存储问题,记录一下常常面临的几种情况。saveAsObjectFile, SequenceFile, mapFile, textFile我就不说了。首先:在写文件的时候,经常输出的目录以及存在,需要一个删掉目录以及存在的情况。大致功能如下 def checkDirExist(sc:SparkContext,outpath:String) = {
python 常用小技巧 最近一直在使用python 进行编程,因为几乎都是边学边用,感慨新知识太多,记忆跟不上,因此,打算把自己觉得比较重要的东西记下来,以后就不用找了。一:关于python 时间方面的知识二:python 时间的比较三:卡方检验,信息增益 用于文本特征提取上面
Mysql存储,查询过程编码问题小结 最近遇到的一些问题整理: 1:千万级条目中查找记录,花费时间比较长,因此自己把文件写到数据库。 2:写数据库,最容易出的问题是,编码乱掉,自己也是出了这个问题,花了很长的时间才解决掉这个问题。分为写入数据库和读取数据库部分。写入数据库部分: 我的数据库是mysql,默认的配置,都是latin1编码格式,也就是”ISO-8859-1”的
Hadoop学习之莎士比亚文档倒排索引 一:题目 莎士比亚文档倒排索引二:简单的实现 1)map类 这其中定义一下map类的输出格式 public static class InvertedMapper extends Mapper{ //默认的这里不是longWritable的key么,怎么回事,应该要设置把 @Override protected void map(Long
Hadoop学习之莎士比亚文档词频统计 一:前一段时间学习了Hadoop,快要找工作了。虽然学习的不深,还是稍微回顾一下,做点准备。多看看代码,及过程吧。 题目:就是统计每个单词出现的频率,很简单的。二:简要过程 1)编写map类class TokenizerMapper extends Mapper { //这些均是封装的数据类型,可视为int,long,String private f
决策树算法解析---ID3,C4.5 一:虽然网上已经有了很多的关于决策树的文章,自己也反复的看了不少遍,但是过了一段时间又觉得比较模糊,因此自己打算来写一篇,自己着重强调物理意义,增加自己的理解。文章末尾会给出参考链接二:决策树首先是基于信息论的,信息熵的增益来作为决策。因此首先我来描述一些信息论中的知识。1)自信息量:在收到ai之前,接受者对信源发出ai的不确定性定义为信息符号ai的自信息量
设计模式--代理模式 一:代理模式。interface Methods{some methods}class Porxy implements Methods{Methods instance;实现接口的方法,具体就与instance的实现相关} 基本的代理原理,被代理的类实现某了接口,具有一些方法,然后再代理里面用到代理对象的接口,然后调用方法。基本上代理的用处在于,提供额外或
分治法的应用-排队购票,餐盘放苹果问题 一:问题描述,一场球赛开始前,售票正在进行。每张球票的价格为50元,现在有30个人排队等待购票,其中有20个人手持50元的钞票,另外10个人手持100元的钞票。假设开始售票时售票处没有零钱,求出这30人排队购票,使售票处不会出现找不开钱的局面的不同排队方案。特别要说的是:拿着同样面值的钞票的人对换位置后为同一排队方案。二:分析额,这题目貌似容易陷入排列组合中去考虑一般情形,有m
JAVA 序列化Serializable 一:玩了好多了天,找实习也大受打击。终于静下心来了,准备开启学霸模式,好好学习几个月。5月初就准备好好看java基础,中间玩了不少时间,进度没有达到预期,接下来开组马力,前进。看了一些java序列化,准备几点笔记二:参考书《Thingking in java》 《Effective java》,以及许多网上的博客,文章的末尾我会给出主要的连接。 声明:虽然看了不少说明,但是感觉还