数据处理
量化橙同学
好好记录就是对曾经的负责,是对生命的珍视,对价值的保护,对勤奋的肯定,对灵魂的忠诚!
展开
-
3月19日——中断了的,快点捡起断点来
原创 2020-03-19 22:10:25 · 290 阅读 · 0 评论 -
量化投资学习——时间序列分析中的时频问题
这个文章呢,不是为了别的,是整理一下自己的一个想法,使用傅里叶变换来处理交易策略会不会有比较好的效果,众所周知,傅里叶变换是信号处理的一个利器,金融信号是不是也属于很多频率的信号,不同强弱的信号叠加的结果呢,这个文章先开着,下面会整理更多的资料来佐证我的这个假设...原创 2019-06-08 21:30:50 · 568 阅读 · 0 评论 -
python数据处理——回归模型的误差分析
首先是提供各个比较好的来源,有空了我再写一个我自己整理的版本出来可以参考简书上的:回归评价指标MSE、RMSE、MAE、R-Squaredhttps://www.jianshu.com/p/9ee85fdad150...原创 2019-04-25 11:39:13 · 4851 阅读 · 0 评论 -
python数据处理——scikit特征选择工具
在scikit中包含了一个特征选择的模块sklearn.feature_selection,而在这个模块下面有以下几个方法:Removing features with low variance(剔除低方差的特征)Univariate feature selection(单变量特征选择)Recursive feature elimination(递归功能消除)Feature select...原创 2019-05-05 11:27:14 · 430 阅读 · 0 评论 -
python数据处理——一些重要的工具包
中间的版本号不用在意,从别的地方粘过来的库名 版本 简介 网址arch 4.1 提供了Univariate volatility模型,Bootstrapping和Multiple comparison procedures https://pypi.python.org/pypi/archbeautifulsoup4 4.5.3 Python...原创 2019-04-10 17:09:36 · 1628 阅读 · 0 评论 -
python数据处理——dataframe删除首行并修改index
import pandas as pddf = pd.DataFrame(columns=['open','close'])df = df.append({'open':1,'close':2},ignore_index=True)df.loc[len(df)]=[5,6]df.drop(index=0,inplace=True)df.reset_index(drop=True,inp...原创 2019-03-27 17:27:37 · 13418 阅读 · 0 评论 -
python数据处理——关于python包的版本的一项教训
在python里面,最怕的是什么情况?莫名其妙的问题,大多数都是版本导致的,所以在安装一个新的包的时候,如果看到了提示version:XXX>=0.xx.xx,毫无疑问,你需要做的就是在安装时候指定版本 pip install xxx==0.xx.xx,即按照最低版本来配置,就不会有问题不要觉得,新的版本会多么多么好什么的,很有可能是删除了你用的很得心应手的特性,很有可能是增加了坑爹...原创 2019-01-14 12:23:13 · 458 阅读 · 0 评论 -
金融数据时间序列分析——关于数据集不平衡的思考
这真是一个比较纠结的问题,网上很多关于数据集不平衡处理方法的技术,但是直面金融数据时间序列分析的?没有?我也没有什么资格可以评判什么,这里写的就是一个大四转行学生对于这些问题的一些思考吧。。首先是采样,这里的内容来自这里:链接1. 采样采样方法是通过对训练集进行处理使其从不平衡的数据集变成平衡的数据集,在大部分情况下会对最终的结果带来提升。采样分为上采样(Oversamplin...原创 2019-01-08 11:42:27 · 2418 阅读 · 0 评论 -
python数据处理——pandas Dataframe.mean()没有返回值,返回series[]
博主真真是个遍历BUG的小能手,这个问题的原因是在pd.read_csv()之类的操作时候,没有指定数值类型,导致的这个问题,因此包括在内的,数值运算之后数据变得很奇怪啊,数据为nan啊之类的问题都有解了,所以说,在read的时候,dtype一下,是一种态度要问我怎么发现的,我在使用DEBUG功能时候,使用了这个函数:意思就是对dataframe的某一列求均值啦,返回typeerror,我...原创 2019-01-11 10:12:14 · 6031 阅读 · 2 评论 -
金融数据时间序列分析——模型准确率过高怎么办
多少年后,小f想起了自己还是刚刚出道的小萌新时候犯的一个错误,当时模型的准确率贼高,高的离谱,就像下面这种情况 precision recall f1-score support -1 1 1 1 1934 0 1 1 ...原创 2019-01-10 17:58:33 · 2172 阅读 · 0 评论 -
python数据处理——pandas进行数据变频或插值
这里首先要介绍官方文档,对python有了进一步深度的学习的大家们应该会发现,网上不管csdn或者简书上还是什么地方,教程来源基本就是官方文档,所以英语只要还过的去,推荐看官方文档,就算不够好,也可以只看它里面的sample就够了好了,不说废话,看我的代码:import pandas as pdimport numpy as nprng = pd.date_range('201801...原创 2019-01-03 20:59:47 · 5772 阅读 · 1 评论 -
多种不同频率数据训练同一个模型的思路探索
在训练模型的时候,取到的数据经常会是不同的频率,在经济时间序列里面更是非常常见,如果使用不同频率的数据训练同一个模型呢,这是一个必须要解决的问题,如果有在思考同一个问题的伙计可以私信我们一起讨论,这里我放一些看到的论文摘要在这里马尔科夫机制转换混合频率数据模型的应用柏久麟 【摘要】:宏观经济时间序列是反应宏观经济的重要指标.宏观经济时间序列中有很多数据能够反映当前的经济状况,有时甚至...原创 2018-12-18 17:10:45 · 2360 阅读 · 1 评论 -
python数据处理——同一行或同一列的错位相减法
pandas 中上下两行相减(隔行相减) -- shift函数的使用最近使用pandas处理数据,需求是想相邻两行上下相减,查API发现shift函数,很灵活,。你也可以隔任意行相减。p['xx_1'] = p["xx"].shift(1)上面得到的就是xx字段向下移动一行的结果,和之前相比向下移动一行,你可以设置为任意行,也可是向上向下p['xx'] - p["xx_1"]这就是...原创 2018-12-21 16:13:44 · 9843 阅读 · 0 评论 -
python数据处理——pandas去除有Nan的行
dataframe.dropna()ji'k即可原创 2018-12-14 20:35:30 · 11331 阅读 · 1 评论