w淳淳淳淳-CSDN博客

原创资产配置作业

作业要求：分析资产池里的29支基金，在客户有100万资金的情况下，如何在有效控制风险的同时获取优异的市场收益。请合理配置这100万资金，给出具体方案并且给出理由。将资产池按照基金类型分类：混合型偏股：160505，100020，100026，161005，519035，377530，519005，519013，162607，260101，260104，260109，260112，260116，162203，162204，377240混合型平衡：050007，519003，5190...

2021-07-13 22:29:52 3226

原创 05 多元时间序列回归（终）

到目前为止，我们的建模工作仅限于单个时间序列。 RNN 自然非常适合多变量时间序列，并且也是我们在时间序列模型中介绍的向量自回归 (VAR) 模型的非线性替代方案。导入各类包import warningswarnings.filterwarnings('ignore')%matplotlib inlinefrom pathlib import Pathimport numpy as npimport pandas as pdimport pandas_datareade...

2021-07-12 17:57:08 3826 1

原创 04 用于时间序列回归的堆叠 LSTM

这一节的前面部分的操作内容及LSTM的堆叠都与上一节完全一样，只是我们最终用途上有差别。03讲的是classification，04讲的是regression。导入各类包import warningswarnings.filterwarnings('ignore')%matplotlib inlinefrom pathlib import Pathimport numpy as npimport pandas as pdfrom scipy.stats import ...

2021-07-12 14:27:20 695

原创 03 用于时间序列分类的堆叠 LSTM

我们现在将使用 Quandl 股票价格数据通过堆叠两个 LSTM 层来构建一个更深的模型。此外，我们将用到本质上不是连续的特征，即用于识别实体和月份的指标变量。导入各类包import warningswarnings.filterwarnings('ignore')%matplotlib inlinefrom pathlib import Pathimport numpy as npimport pandas as pdfrom scipy.stats import s...

2021-07-12 10:24:08 1001

原创 02 单变量时间序列回归

02：单变量时间序列回归本节演示了如何使用循环神经网络预测沪标准普尔500指数。导入和设置import warningswarnings.filterwarnings('ignore')%matplotlib inlinefrom pathlib import Pathimport numpy as npimport pandas as pdimport pandas_datareader.data as webfrom scipy.stats import ...

2021-07-12 09:09:37 923

原创读书笔记：大数据清洗技术07（终）

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第六章不一致数据检测与修复数据一致性指的是在数据中不包含语义错误或相互矛盾的数据，通常数据一致性通过规则检验和基于规则的修复方法来保障。大数据上不一致数据的修复主要挑战在于可扩展性和修复知识匮乏。针对前者，本章提出了基于MapReduce编程模型的数据不一致修复算法和扫描数据一次的不一致数据检测算法；针对后者本章提出了基于众包的不一致数据修复算法。同时本章通过实验验证了本章提出算法的效率和有效性。数据的一致...

2021-07-11 21:52:12 308 1

原创读书笔记：大数据清洗技术06

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第五章缺失值填充缺失值是影响数据完整性的主要因素。缺失值不仅意味着信息的空白，更重要的是它会影响后续数据挖掘、统计分析等工作的进行。很多算法无法直接处理这些缺失值，比如在聚类算法中，距离函数无法处理缺失值，这会影响最终的聚类结果；在决策树分类中对在分裂属性取值为空的记录难以进行划分。尽管直接忽略包含缺失值的记录似乎能够解决上述问题，但面对高缺失值的情况，采用填充的方法比简单删除记录更有利于后续数据的利用...

2021-07-11 12:30:47 307

原创读书笔记：大数据清洗技术05

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第四章真值发现上一章实体识别主要是在解决实体同一性的数据问题，那么这一章真值发现主要是聚焦不精确数据的问题。由于互联网上的信息大量冗杂，网络信息的可信度被一再质疑，如何获得正确的数据成为当今人们关注的话题。现代化信息管理经常需要集成多个数据源的信息保证数据质量，而在数据集成的过程中不免会产生各类的脏数据。其中由于这些数据源的信息有些是正确的，有些是错误的，冲突数据便是最不可忽略的一类。解决数据库中的冲突并向用...

2021-07-11 10:14:18 524

原创读书笔记：大数据清洗技术 04

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第三章实体识别上一节主要讲了串行实体识别方法，虽然提出了Gcluester聚类方法减少了相似度计算的数量，但本质上依旧没有解决可拓展性问题，所以本节讲到了能够有效提高可拓展性的并行算法，从两个角度来研究，基于MapReduce的大数据实体识别算法和基于Hyracks的实体识别。主要讲基于MapReduce框架提出的新的EIBM算法，其主要想法是定义了一种新的相似度度量来降低相似度计算量，再解决A与B，B与C的传递性问题，一共分...

2021-07-09 17:20:38 232

原创读书笔记：大数据清洗技术 03

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第三章实体识别本节我们将着重讲一下实体识别算法中的串行实体识别。1. 实体识别概述同一对象的不同表示通常是由于信息来自不同的数据源。当人们从不同的数据源集成信息时，在数据的存储过程以及传递过程中均会产生无法避免的错误。因此，为了有效地管理数据，提高数据质量，需要在数据中准确识别出同一对象的不同表示，例如一词多义，即实体识别。实体识别是对数据进行质量管理的重要步骤，目的是在数据库中识别描...

2021-07-08 18:37:03 185

原创 01 创建为 RNN 示例格式化的数据集(Build weekly dataset)

01 创建为 RNN 示例格式化的数据集(Build weekly dataset)构建每周数据集我们加载MAOTAIprices = (pd.read_hdf(DATA_DIR / 'assets.h5', 'quandl/wiki/prices') .adj_close .unstack().loc['2007':])prices.info()调整后的股价数据：...

2021-07-07 21:22:23 246

原创 01 创建为 RNN 示例格式化的数据集(Build daily dataset)

导入和设置import warningswarnings.filterwarnings('ignore')from pathlib import Pathimport numpy as npimport pandas as pdnp.random.seed(42)idx = pd.IndexSlice构建每日数据集DATA_DIR = Path('..', 'data')prices = (pd.read_excel(r'C:\Users\lenovo\Desktop\..

2021-07-07 18:16:45 446

原创 RNN 交易：多元时间序列和文本数据

本专题是基于《Machine Learning for Algorithmic Trading》(Second Edition)对RNN交易中的代码使用A股数据进行复现。RNN 交易：多元时间序列和文本数据 RNN 的主要创新是每个输出都是先前输出和新数据的函数。所以RNN 能够将先前观察的信息合并到它对新的特征向量执行的计算中，从而有效地创建具有记忆（memory）的模型。这种循环公式包括在循环的更深的计算过程中共享参数。可选择的架构包括长短期记忆 (LSTM) 和门控循环单元 (GR...

2021-07-07 12:53:19 1206

原创读书笔记：大数据清洗技术 02

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志第二章大数据处理技术概述上一章我们主要从大数据的定义及特征，大数据的质量问题，大数据清洗技术的进展和本书的技术创新点四个方面对这本书有了初步的了解。本章我们来了解本书中会使用到的常见的大数据处理技术包括两个部分。第一部分是基于大数据规模大和速度快的特点，讲的是大数据并行计算平台Hadoop平台和Hyracks平台以提高计算可拓展性，第二部分则是面对大数据多样性的特点采取人机协同的策略，利用人的知识补充计算机处理能力的众包技术。...

2021-07-07 00:28:09 241

原创读书笔记：大数据清洗技术01

读书笔记：大数据清洗技术作者：哈尔滨工业大学博导王宏志本书一共分为七个章节，第一章绪论，第二章是有关本书使用的大数据计算平台介绍，第三章至第七章是关于处理不同问题数据的方法。对于本书的讲解在基本定义方面多会采用举例法来印证，减少对定义的描述，算法方面大部分会直接通过书中的实例来分析。第一章绪论本章从大数据的基本定义和特点出发，提出数据质量的问题的关键，结合大数据的本身特点，通过讨论，延伸出大数据清洗技术的重要性和必要性，分析了国内外相关工作研究现状，总结了本书的...

2021-07-06 20:24:07 622

m0_49773334的博客