cndrip-CSDN博客

原创【量化交易笔记】18.多因子树型策略

本文采用非线性模型的方式来制定量化策略，本篇就是基于决策树和随机森林模型来分析因子的重要性问题，底层的原理不在这里讲述了。思路如下，先获取一定数量股票和一定数量的因子，并确定一个目标，进行训练，根据训练结果，制定策略，用回测查看最终。

2025-04-27 17:51:50 1329 2

原创【量化交易笔记】17.多因子的线性回归模型策略

本文以上证50为标的，采用财务等多因子建立线性回归建模，并根据这个结果，以历史数据此进行回测验证，并提供完整的回测代码，得到不错的效果，为实现实际的策略制定提供一种思路。

2025-04-26 18:39:49 2203

本文通过有一款神器级别的库——Alphalens，以其强大的因子评价功能，成为了众多专业投资者的首选工具，并详细介绍使用Alphalens 工具生成因子评价报告，如何读懂报告。这份因子评价报告的内容很多，图文并茂，限于篇幅不在此列出，大家可以运行上述代码查看。这份因子评价报告主要有三个部分的内容：1）因子分组收益的评价；2）因子信息系数（IC）的评价；3）因子换手率的评价。上述三个部分的内容实际上是调用了三个子函数来实现的：create_returns_tear_sheet函数、create_infor

2025-03-13 22:17:55 2291

原创【量化交易笔记】15.因子的来源和生成

现在市场上很多基金，特别是量化的基金，多带有“多因子”配置，策略等，这些基金策略实际上与之前《13.实盘交易策略制定与实施》是一致的，在量化交易，因子作为交易的基础（数据源），起着重要作用。从本文开始，从最简单的一个因子开始，讲解产生、使用、作用和检验，本文就这些因子是如何产生的，来做一个详细说明。

2025-03-09 21:24:42 1756

原创【Kaggle】练习赛《预测贴纸的销量》（下）

本篇在前二篇的基础上，利用机器学习的常规思路进行预测未来的销量。分别采用了不同的方案，对时间序列的特点，增加了周期性的内容，如何正弦，余弦特征列等。从而提升了效果。在标签上采用对数化处理，明显提升效果，并说明在什么情况下采用对数处理的方式。

2025-01-11 19:47:06 1203 2

原创【Kaggle】练习赛《预测贴纸的销量》（中）

本文顺着上篇EDA的思路，利用各地区的GDP数据填充目标标签的缺失值原理，来预测未来的销量。具体方法思路：先一一对国家、产品和商店进行汇总，然后对未来三年的每日销售额进行预测，然后再进行分解，得到每个国家、产品和商店的销售额。

2025-01-07 21:05:08 1054 2

原创【Kaggle】练习赛《预测贴纸的销量》（上）

本文介绍的是2025年首个Kaggle月赛《预测贴纸的销量》。与之前一样，也同样适合初学者，但与之前不同的是，本次比赛的数据集是个时间序列，从题目来看，就是通过之前销量来预测未来的销量。本期用先用着重讲述如何填充缺失值。时间序列数据集，特别是产品销量是有一定时间周期性其周期性图形可以看出，具有类似正弦曲线产品销量与该地区的GPD完全正相关销量与是否周末有关以上这些特征为下一次建模的特征工程提供有方向。

2025-01-05 22:06:34 1196

原创【量化交易笔记】14.模拟盘效果

以上是众多策略中的两个，也是我从去年模拟到现在，应该说是有效的；从量化的角度上看，这些策略的共同点：小市值，在今年上半年效果不理想；文章所有涉及到具体GP的内容，我进行屏蔽，请给给予理解；如果小伙伴喜欢量化技术研究，可以与我一起讨论再次声明：该篇主要是是用来展示量化交易的效果，不构成任何投资建议，仅供参考。

2024-11-12 10:34:02 1560

原创【Kaggle】练习赛《有毒蘑菇的二分类预测》(下)

本篇《有毒蘑菇的二分类预测》对数据集进行EDA，根据实际情况，用特征工程的方法，删除频次低的数据和缺失值多的列，同时用one-hot对原先的21个特征扩展成118个特征，再用深度学习的方法进行建模取得较好的成绩。

2024-08-25 17:21:24 1228

原创【Kaggle】练习赛《有毒蘑菇的二分类预测》(上)

本篇文章介绍的是Kaggle月赛《有毒蘑菇的二分类预测》。比赛的数据集有大量的缺失值，本期用两篇文章用不同的方法来处理这些缺失值，并使用和Pipeline技术，来提升处理数据的能力，简化操作步骤。

2024-08-25 15:37:03 1770 2

原创【Kaggle】练习赛《保险交叉销售的二分类预测》

本篇文章介绍的是Kaggle月赛《保险交叉销售的二元分类预测》。由于该数据集庞大并且不平衡性，使用传统的方法很难达到预期效果，本采用优化读取，减少内存使用量，对不平衡数据特殊的欠采样、过采样等不同方式进行训练和评估，最终采用多模型融合的方式，取得了0.89065的好成绩。

2024-07-14 19:42:07 1633 2

原创【Kaggle】练习赛《洪水数据集的回归预测》(下)

本篇介绍了该数据集非常特殊之处，各特征都非常类似，没有特别之处，各特征之间的相关系数几乎为零。同时，各类模型不敏感，最理想的模型居然是线性回归，决定系数R2R^2R2，也只有 0.846。对这样的一个问题，我们如何突破呢？写这篇文章的初衷，是为了一种思维的突破，改变原先常规的特征基础，选用统计量作为特征，这是我在以往所没有碰到过的，基于这一点，拿来分享给大家。

2024-05-05 17:31:11 2892 10

原创【Kaggle】练习赛《洪水数据集的回归预测》(上)

本期是2024年5月份的题目《洪水数据集的回归预测》，发现与我之前参与的题目不一样，颠覆了我的认知，使我重认识机器学习的魅力。用大量的可视化的图，来展示这个数据集特征的特点和属性，从中发现这些特征的不同之处。由此引入一个新的问题，在此基础上进行突破。

2024-05-05 17:29:06 5703 21

原创【Kaggle】练习赛《鲍鱼年龄预测》(下)

本文在上篇《鲍鱼年龄预测》用 optuna 对四个不同模型优化参数，最终用融合的方式，完成这份赛题。

2024-04-08 07:45:00 1198 1

原创【Kaggle】练习赛《鲍鱼年龄预测》(上)

本文是Kaggle月度练习赛的一个回归的赛题，本期是2024年4月份的题目《Regression with an Abalone Dataset》即《鲍鱼年龄预测》，本篇着重讲解数据探索（ EDA）方面，下篇讲解建模优化方面。🚀 在这个激动人心的探索中，我们深入了解鲍鱼生物学的迷人世界。我们的使命？利用先进的机器学习技术，根据鲍鱼的身体测量结果预测鲍鱼的年龄。

2024-04-06 21:25:12 2869

原创【Kaggle】练习赛《肥胖风险的多类别预测》

作为机器学习的初学者，Kaggle提供了一个很好的练习和学习平台，其中有一个栏目《PLAYGROUND》，可以理解为游乐场系列赛，提供有趣、平易近人的数据集，以练习他们的机器学习技能，并每个月都会有一场比赛。非常适合新手学习的机会，同时会有大量的高手分享其代码，本期是2024年2月份的题目《Multi-Class Prediction of Obesity Risk》即《肥胖风险的多类别预测》，在此我分享在这个比赛过程的点点滴滴。

2024-03-07 19:36:16 7306 49

原创【量化交易笔记】13.实盘交易策略制定与实施

以股票的截面数据与收益率进行机器学习建模，验证不用机器学习的验证结果，而是用交易回测作为标准。用实际的量化交易框架，讲解了具体策略的制定和实施的过程。

2023-12-24 19:37:39 2620 2

原创【机器学习可解释性】5.SHAP值的高级使用

排列重要性非常重要，因为它创建了简单的数字度量来查看哪些特征对模型重要。这有助于我们轻松地比较特性，并且您可以向非技术人员展示结果图。但它并没有告诉你每个特性的重要性。如果一个特征具有中等排列重要性，那可能意味着它具有中等排列重要性对一些预测有很大影响，但总体上没有影响，或者所有预测的中等效应SHAP总结图可以让我们鸟瞰特征的重要性和驱动因素。我们将浏览一个足球数据的示例图：这张图由许多点组成。垂直位置显示它所描绘的特征颜色显示该特征在数据集的那一行中是高还是低。

2023-10-29 20:02:35 15955 13

原创【机器学习可解释性】4.SHAP 值

SHAP 值 (SHapley Additive exPlanations的首字母缩写)对预测进行分解，以显示每个特征的影响。你可以在哪里使用这个?一个模型说，银行不应该借钱给某人，法律要求银行解释每笔拒绝贷款的依据医疗保健提供者想要确定是什么因素导致每个病人患某种疾病的风险，这样他们就可以通过有针对性的健康干预措施直接解决这些风险因素在本次课程中，您将使用SHAP 值来解释单个预测。

2023-10-28 20:33:33 5443 2

原创【机器学习可解释性】3.部分依赖图

部分依赖图 --每个特征怎么样影响预测结果？像排列重要性一样，部分依赖图是在模型拟合后计算的。我们将使用拟合模型来预测我们的结果(他们的球员赢得“全场最佳球员”的概率)。但是我们**反复改变一个变量的值**来做出一系列的预测。如果球队只有40%的控球率，我们就能预测结果。然后我们预测，他们有50%的几率拿球，然后再预测60%，等等...... 我们追踪预测结果(在纵轴上)，当我们从小的控球值移动到大的值(在横轴上)。除了一维的图之外，还有二维部分依赖图，更加直观的表示二个特征（变量）影响预测结果。

2023-10-27 20:09:13 12556 4

原创【机器学习可解释性】2.特征重要性排列

你的模型认为哪些特征最重要？我们可能会对模型提出的最基本的问题之一是：哪些特征对预测的影响最大？这个概念被称为特征重要性。有多种方法可以衡量特征的重要性。一些方法巧妙地回答了上述问题的不同版本。其他方法也有不足之处。在本课程中，我们将重点讨论排列的重要性。快速计算广泛使用和理解，并且与我们希望特征重要性度量具有的属性一致。您将通过出租车票价预测比赛的数据样本来思考和计算排列重要性。我们现在不会专注于数据探索或模型构建。你可以运行下面的单元格加载数据将数据划分为训练集和验证集。

2023-10-26 21:26:02 4948 1

原创【机器学习可解释性】1.模型洞察的价值

本文是 kaggle上机器学习可解释性课程，共五部分，除第一部分介绍外，每部分包括辅导和练习。此为第一部分，原文链接如果你是入门者，建议先看之前的文章《sklearn快速入门教程》和《机器学习中级教程》。引用格式的文字，非原文的内容，是我在学习过程中，加入一些体会和感想，与小伙伴们分享。在机器学习中，除线性回归可以比较容易解释之外，其他的模型很难做进一步解释和展示，特别给对机器学习不太了解的朋友，因此急需要有可解释的文字、图表以及相关的内容，最直观的就是图形。

2023-10-25 21:03:56 880

原创【量化交易笔记】12.海龟交易策略

海龟交易法则利用唐奇安通道的突破点作为买卖信号指导交易，简单而言唐奇安通道是由一条上轨线、中线和下线组成，上轨线由N1日内最高价构成，下轨线由N2日内最低价计算，当价格冲破上轨是可能的买入信号，反之，冲破下轨时是可能的卖出信号。原始的海龟交易采用唐奇安通道来追踪趋势，在趋势比较明显的行情表现不错，但是在震荡的行情中效果不佳，当然这是所有趋势型策略的通病。信息比率越大，说明该策略单位跟踪误差所获得的超额收益越高，因此，信息比率较大的策略的表现要优于信息比率较小的策略。

2023-10-24 21:01:07 4303 3

原创【量化交易笔记】11.移动平均交易策略

上一节我们建立了最最简单的交易策略，尽管有了盈利，但实际操作上是不可行的。本节将运用移动平均指标，包括单一移动平均策略和双移动平均策略，来建立经典的移动平均策略。这几个策略都没有取得良好的效果，这是因为移动平均策略是适合趋势市场。这个震荡的市场效果不理想。以上回测，并没有加入交易费用，是不全面的。回测的图形不是很直观，没有看到收益情况，需要查表格最后才能看明白。回测应有收益曲线，基准曲线等回测一些相关参数，如α和β\alpha 和 \betaα和β，最大回测，年化收益等。

2023-10-22 23:15:11 1021

原创【量化交易笔记】10.建立最简单的交易策略

本文制定了，最最最简单的交易策略，并进行了回测，采用完整的代码，通俗易懂。从数据采集，数据处理，设定交易信息，实现交易，并进行回测，一个完整的过程。从而，使大家对交易策略有了一个整体的了解。

2023-10-20 19:49:17 965

原创【量化交易笔记】9.量化投资理论及一般流程

本文从三个目前流行的量化投资中最重要的三大理论讲解投资的低层逻辑及相关公式，并讲述了什么是阿尔法（ α）和贝塔（β）。并讨论了策略研究的一般流程。

2023-10-18 23:37:05 1704

原创可视化上证50结构图

用机器学习的方法，将上证50的成分股的K线数据，通过协方差矩阵，并使用Affinity Propagation进行聚类分析后，在二维平面展示。

2023-10-15 17:59:54 702

原创【量化交易笔记】8.基于深度学习(LSTM)预测股票价格

前一章节，已作随机森林来预测股票价格，也是一种比较常见的方法，本章基于深度学习算法来处理时间序列，来预测股票未来的价格。LSTM是一种特殊类型的循环神经网络（RNN），在自然语言处理和时间序列数据分析等任务中取得了显著成果。LSTM通过处理序列数据中的长期依赖关系，能够更好地捕捉时间序列数据的特征和模式。这使得它成为预测股票价格这类时间相关数据的有力工具。关于LSTM 在之前的文章中也略作介绍。我们仍以上一章的数据，采用类似于上一章的处理方式进行处理。

2023-06-11 22:25:12 6690 13

原创【量化交易笔记】7.基于随机森林预测股票价格

机器学习在量化交易主要有两方面的应用，第一就是用时间序列的日频数据来预测未来的股价，第二用截面数据来预测收益，现在量化基因的因子都基于这个模型。接下来，我分别来说明，机器学习分成预测结果分成分类和回归。本章，就以随机森林来做未来某天的股价，是一种典型的回归分析方法，如果预测股价的涨跌就是分类问题。在这里有很多坑，我帮小伙伴一一填平。这里只是预测的方法，想应用到真实的预测，以此来作股票买卖，我在这里说，别，千万别，…。

2023-05-31 22:48:08 8157 19

原创【量化交易笔记】6.布林带的实现

布林线（Bollinger Bands，BOLL）又称布林带，是约翰·布林（John Bollinger）提出的一种行情价格频带分轨，是根据统计学中的标准差原理，设计出来的一种非常实用的技术指标。布林线也建立在移动平均线之上，但包含最近的价格波动，使指标更能适应不同的市场条件。布林线通常可由上轨（压力线）、中轨（行情平衡线）和下轨（支撑线）三条轨道线组成，属于通道式指标或路径式指标[1]。股票的布林带指标是一种基于统计学的技术指标，用于衡量股票价格在一定时间内的波动范围。

2023-05-16 22:04:42 1930

原创【量化交易笔记】5.SMA，EMA 和WMA区别

股票中的SMA，EMA和WMA是常用的技术分析指标。这些指标基于历史股价计算得出，可以帮助投资者了解股票的趋势，为决策提供依据。虽然它们都是平均值算法，但它们之间还是有一些区别的。

2023-05-01 21:58:42 8350

原创【量化交易笔记】4.移动平均值的实现

本部分讲解移动平均MA原理，实现，并通过K 线图中的各类均线，如 5日均线（周），10日均线（半月），20日均线（月），250日均线（年）。在肌市多头排列，空头排列这些专业名称，我在以后讲解都需要用到移动平均值。

2023-03-09 20:37:37 1691

原创【量化交易笔记】3.实现数据库保存数据

将下载的A股K线数据本地化，通过数据库方式进行保存。

2023-03-08 19:07:09 1471

原创【量化交易笔记】2.数据本地化存储(CSV)

通过本地化的数据表形式保存数据，这样大大方便以后数据的操作。为了更高效的操作数据，下一节介绍数据库方式存放以上数据，基本的思路是一样的，只是存储方式不一样而已。

2023-03-07 19:51:25 2344 2

原创【量化交易笔记】1.数据来源

三个平台均可以满足我们入门级需求，根据个人喜好进行选择，如后续想对基金，期货做量化研究，不建议使用 baostock；专栏仅仅是A股，因此就选择 baostock 工具进行研究。小伙伴们肯定不会仅仅研究一两支股票，如进行选股操作，因此需要下载大量的本地数据，所以这里有两种方式，一种下载保存为csv格式文件；另一种方式，用数据库的方式保存。下一节，我将带大家学习保存数据的两种方式。

2023-03-06 18:10:24 5753 9

原创【量化交易笔记】0.开篇

有位小伙伴找我，说想学量化，我说欢迎一起学，我问他目的，他说“ 想炒股赚钱”，“那你会什么？”，“我会编程！”，其实有这两点就够了。其实量化是有门槛的，需要掌握一些基本的知识，如数学知识，金融知识，财务知识，同时也要具有一定的编程能力。本人作为一个编程爱好者，来学习量化，本人认为 “**有赚钱的动力和编程的能力**”。这一篇作为量化交易学习的开篇，计划从以下几方面来学习，如涉及到软件安装，不会做专门的解决，自己自行百度，但其中的坑也有相应的说明。会首重放在代码实现上，尽量用少的文字，附大量实例。

2023-03-05 09:55:57 492 1

原创 CDA Level Ⅲ 模拟题（二）

即IDF可以反映w的独特性。ABCD文本分类 : 在给定已知的分类体系下，根据文本特征构建有监督机器学习模型，达到识别文本类型或内容主旨的目的. 文本关联 : 它是传统关联规则方法在文本挖掘上的应用，包含文档类型关联、词汇关联、实体关联等内容. 文本聚类: 就是从众多的文档中把一些内容相似的文档聚为一类的技术，同类的文本相似度较大，而不同类的文本相似度较小，是一种无监督的机器学习方法. 文本摘要: 就是对数据内容进行提炼与总结，以简洁、直观的摘要来概括所关注的主要内容，方便我们快速地了解与浏览内容.

2023-02-05 23:24:47 1540

原创 CDA Level Ⅲ 模拟题（一）

TAN 分类器是由Friedman 等人提出的一种树状贝叶斯网络, 是朴素贝叶斯分类器的一种改进模型隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程 LSA是1988年S.T. Dumais等提出的一种新的信息检索模型，它使用统计计算的方法对大量的文本集进行分析，提取出词与词之间潜在的语义结构，并用这种潜在的语义结构表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的 TWO-STEP是一种分层群集算法。

2023-02-05 23:23:22 3100

原创 CDA Level Ⅱ 模拟题（二）

CDA二级考试模拟题

2023-02-04 13:44:06 4672

Kaggle 2022-04月赛数据集机器学习 tabular-playground-series-apr-2022.zip

竞赛中，数据集中包括60秒的传感器数据序列进行分类，指示受试者在序列期间是否处于两种活动状态之一。 train.csv ：训练集，包括约26000个60秒的13个生物传感器的记录，供近1000名实验参与者使用 - sequence：序列，每个序列的唯一id - subject：受试者，实验中受试者的唯一id - step：步长,录制的时间步长，以1秒为间隔 - sensor_00-sensor_12： 13个传感器在该时间步的值 train_labels: 标签, csv-每个序列的类标签。 - sequence：序列，—每个序列的唯一id。 - state：状态，与每个序列关联的状态。这就是你试图预测的目标。 test.csv ：测试集。对于12000个序列中的每一个，您都应该预测该序列状态的值。 sample_submission.csv ：提交样品，csv-正确格式的示例提交文件。后继将写一篇关于如何使用数据集的文章，敬请关注。

2022-05-03

TA关注的人

Kaggle 2022-04月赛数据集 机器学习 tabular-playground-series-apr-2022.zip

数据处理可视化的最有价值的 50 张图资源包

照片抽奖程序（javascript）

常用Excel三个库文件

2020年浙江省信息学省选题目及数据（ZJOI2020）

手机号码抽奖程序

手机拔号程序

Android短信发送程序

运行结果及报错内容，如何解决？

Kaggle 2022-04月赛数据集机器学习 tabular-playground-series-apr-2022.zip