小成星际-CSDN博客

原创 Wind Python案例

Wind Python案例基础函数使用实例本案例演示如何使用WindPy接口提取数据。代码示例如下：输出DataFrame格式# 案例1. 输出WindData对象并转化为Pandas格式案例2. 量化接口直接输出DataFrame订阅实时行情案例1. 订阅实时行情，并存储到硬盘中案例2. 订阅实时行情，并在界面中展示案例3. 订阅实时行情，并放入分线程中获取板块数据案例1. 获取沪深300指数最新成分股并保存为JSON文件案例2. 获取沪深300成分股历史数据并存入数据库中案例3. 获取沪深300成分股数

2021-10-13 10:13:42 5487 1

原创 Wind客户端交易数据读取函数

Wind客户端交易数据读取函数3. 获取日时间序列函数WSD4.获取日截面数据函数WSS5. 获取分钟序列数据函数WSI6. 获取日内tick数据函数WST7.实时行情数据函数 WSQ8. 获取板块日序列数据函数WSES9. 获取板块日截面数据函数WSEE10.获取报表数据函数WSET11. 获取全球宏观经济数据函数EDB12.交易登录函数tlogon13.交易登出函数tlogout14.交易委托下单函数torder15.交易撤销委托函数tcancel16.交易情况查询函数tquery17.获取组合报表数据

2021-10-12 16:50:12 5816

原创 Python ACM模式

Python ACM模式import sys# 这里写解决问题的代码，和LeetCode就完全一样了def solve(arr): sum = 0 for i in range(len(arr)): sum += arr[i] return sumif __name__ == '__main__': # 接收输入的逻辑，这里先把输入接收过来，两种选择input()和sys.stdin.readline() group_nums = i

2021-10-03 16:52:50 6259

原创算法总结——单调栈

算法总结——单调栈一、每日温度Python版本二、下一个更大元素 IPython版本下一个更大元素IIPython版本接雨水双指针解法动态规划解法单调栈解法Python双指针法五、柱状图中最大的矩形本文是在阅读微信公众号《代码随想录》后进行改写学习的一、每日温度leecode 739. 每日温度请根据每日气温列表，重新生成一个列表。对应位置的输出为：要想观测到更高的气温，至少需要等待的天数。如果气温在这之后都不会升高，请在该位置用 0 来代替。例如，给定一个列表 temperatures = [7

2021-09-03 22:22:07 525

原创算法总结——栈与队列

算法总结——栈与队列一、栈与队列理论基础用栈实现队列Python版本三、用队列实现栈Python版本四、有效的括号Python版本五、删除字符串中的所有相邻重复项Python版本六、逆波兰表达式求值Python七、滑动窗口最大值Python版本八、前 K 个高频元素思路Python版本本文是在阅读微信公众号《代码随想录》后进行改写学习的一、栈与队列理论基础队列是先进先出，栈是先进后出那么我这里在列出四个关于栈的问题，大家可以思考一下。以下是以C++为例，相信使用其他编程语言的同学也对应思考一下，自

2021-09-03 21:44:34 520

原创算法总结——双指针法

算法总结——双指针法一、移除元素暴力解法双指针法相关题目推荐Python版本二、反转字符串Python版本三、替换空格Python版本四、翻转字符串里的单词Python版本五、反转链表双指针法递归法Python迭代法Python递归法六、删除链表的倒数第N个节点Python版本七、链表相交Python版本八、环形链表IIPython版本九、三数之和哈希解法双指针Python版本十、四数之和Python版本本文是在阅读微信公众号《代码随想录》后进行改写学习的一、移除元素leecode 27. 移除元素

2021-09-03 19:09:10 328

原创算法总结——字符串

算法总结——字符串一、反转字符串Python版本二、反转字符串IIPython版本三、替换空格Python 版本四、翻转字符串里的单词Python版本五、左旋转字符串Python版本六、实现 strStr()什么是KMPKMP有什么用什么是前缀表最长公共前后缀？为什么一定要用前缀表如何计算前缀表前缀表与next数组使用next数组来匹配时间复杂度分析构造next数组使用next数组来做匹配前缀表（不减一）C++实现Python七、重复的子字符串本文是在阅读微信公众号《代码随想录》后进行改写学习的一、反转

2021-09-03 18:09:20 717

原创算法总结——哈希表

算法总结——哈希表一、哈希表哈希函数哈希碰撞线性探测法常见的三种哈希结构二、有效的字母异位词Python版本一Python写法二（没有使用数组作为哈希表，只是介绍defaultdict这样一种解题思路）相关题目三、两个数组的交集拓展Python版本相关题目四、快乐数Python版本五、两数之和Python版本六、四数相加IIPython版本七、赎金信暴力解法哈希解法Python写法一（使用数组作为哈希表）Python写法二（使用defaultdict）Python写法三八、三数之和哈希解法双指针Python

2021-09-02 17:00:55 549

原创算法总结——链表篇

算法总结——链表篇一、链表理论基础链表的类型单链表双链表循环链表链表的存储方式链表的定义链表的操作删除节点添加节点性能分析二、移除链表元素Python版本三、设计链表Python版本四、反转链表双指针法递归法Python迭代法Python递归法五、两两交换链表中的节点Python版本六、删除链表的倒数第N个节点Python版本七、链表相交Python版本八、环形链表IIPython版本九、总结链表的理论基础虚拟头结点链表的基本操作反转链表删除倒数第N个节点链表相交环形链表本文是在阅读微信公众号《代码随想

2021-09-02 14:01:12 857

原创算法总结——数组篇

算法总结——数组篇一、数组二、二分查找二分法第一种写法二分法第二种写法相关题目推荐Python版本1（左闭右闭）Python版本2（左闭右开）三、移除元素暴力解法双指针法相关题目推荐Python版本四、有序数组的平方暴力排序双指针法Python版本五、长度最小的子数组暴力解法滑动窗口相关题目推荐Python版本六、螺旋矩阵II类似题目Python版本总结数组理论基础数组的经典题目二分法双指针法滑动窗口模拟行为一、数组数组是存放在连续内存空间上的相同类型数据的集合。数组可以方便的通过下标索引的方式获取到

2021-09-01 20:36:59 974

原创《Python金融大数据风控建模实战》第18章模型融合

《Python金融大数据风控建模实战》第18章模型融合本章引言Python代码实现及注释本章引言模型融合思想认为，在多个表现较好的模型中，每个模型的预测结果都有一定的参考价值，并且每个模型在建模时考虑的策略也各有差异，如果能综合多个模型的优点，则最终的结果可能会更好。常用的方式为等权重加和，即每个模型的权重都是相同的。对于分类问题可以采用投票表决的方法将相对多的结果作为最终的决策结果；对于回归问题，可以采用求平均值的方式将均值作为最终的预测结果。另一种方法是给每个模型以不同的权重，这种方法假设大

2021-03-28 16:00:09 1190

原创《Python金融大数据风控建模实战》第17章集成学习

《Python金融大数据风控建模实战》第17章集成学习本章引言Python代码实现及注释本章引言集成学习旨在通过训练多个模型，扩展假设空间，进而逐步接近真实数据集中蕴含的规则。同时，多个训练模型同时陷入局部最小值的概率较低，保证了测试集可以得到相对较优的结果。目前，集成学习大致可分为两种：并行的集成方法Bagging和串行的集成方法Boosting。并行的集成方法中，基学习器的构建是相互独立的，没有先后顺序，可以同时进行建模。而串行的集成方法中，各个基学习器之间有强烈的依赖关系，即后一个模型是在前

2021-03-28 14:51:06 648 1

原创《Python金融大数据风控建模实战》第16章支持向量机模型

《Python金融大数据风控建模实战》第16章支持向量机模型本章引言Python代码实现及注释本章引言Python代码实现及注释t sys#path = __file__#path = os.path.abspath(path + ((os.sep + '..') * 2))#sys.path.append(path)import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_s

2021-03-28 11:35:13 639 1

原创《Python金融大数据风控建模实战》第15章神经网络模型

《Python金融大数据风控建模实战》第15章神经网络模型本章引言Python代码实现及注释本章引言神经网络模型是深度学习的基础。从神经网络的结构中可以发现，模型的未知参数就是一系列权重值，网络结构越复杂其非线性表达能力越强，同时需要学习的权重就越多。误差反向传播算法（error BackPropagation，BP算法）是神经网络的学习策略中最著名的算法代表，不仅用于前馈神经网络的学习，还可以用于其他类型的神经网络，如递归神经网络的训练，而且在深度学习中也是采用BP算法进行网络训练的。Pyth

2021-03-23 17:27:48 772

原创《Python金融大数据风控建模实战》第14章决策树模型

《Python金融大数据风控建模实战》第14章决策树模型本章引言Python代码实现及注释本章引言在评分卡建模中，模型可解释性也很重要。除了Logistic回归模型，决策树模型也是一个非常好理解的模型。决策树模型的规则组合以树的形式展现，由根节点到每一个叶结点的路径构成了一条规则，路径上中间节点的特征对应着具体规则的条件，每个叶结点代表决策结果。同时，这个规则集合具有互斥并完备的性质，即每一个实例都有且只有一条路径或一条规则所覆盖。决策树模型也可以理解为定义在特征空间与类空间的条件概率分布，由训练

2021-03-23 13:16:54 1067

原创《Python金融大数据风控建模实战》第13章特征工程进阶

《Python金融大数据风控建模实战》第13章特征工程进阶本章引言Python代码实现及注释本章引言数据和特征决定了机器学习的上限，而模型和算法只是进一步接近这个上限而已。特征工程在整个机器学习中的重要性不言而喻，而且特征工程严重依赖于行业知识。深度学习的出现给自动特征工程带来了希望，深度学习提出了一种端到端的学习模式，即无须人工特征工程，而只需要给定输入数据与预测目标，模型即可自动实现特征工程和训练等过程。但是，深度学习在图像数据、语音、时序数据中可以很好地实现自动特征工程，而对于样本间相互独立的

2021-03-21 15:13:28 719

原创《Python金融大数据风控建模实战》第12章样本不均衡处理

《Python金融大数据风控建模实战》第12章样本不均衡处理本章引言Python代码实现及注释本章引言在实际的评分卡开发过程中，会出现分类样本不均衡的情况，比如违约的样本远远小于不违约的样本，这就是样本不均衡的分类问题。通常将数量较少的样本（坏样本）定义为正样本，将数量较多的样本（好样本）定义为负样本。要求模型对正样本（坏样本）和负样本（好样本）均具有较好的区分能力，但是在样本不均衡的情况下很难实现。特征选择时的影响样本不均衡会影响变量选择的效果。模型训练时的影响模型训练是在特征选择

2021-03-20 15:52:52 918

原创《Python金融大数据风控建模实战》第11章模型在线监控

《Python金融大数据风控建模实战》第11章模型在线监控本章引言Python代码实现及注释本章引言第9章介绍了在模型开发阶段的评估指标。模型完成开发后，如果其性能满足基本要求，就可以在生产环境中上线使用。在这个阶段仍然需要对模型指标进行评估，其目的在于判断模型的有效性，通过指标的判断给模型提供更新机制，即模型要使用多久，以及当哪些指标发生恶化后需要终止使用并重新开发新模型。模型评估指标决定了模型上线使用的生命周期。Python代码实现及注释# 第11章：模型在线监控import osim

2021-03-20 11:10:32 578

原创《Python金融大数据风控建模实战》第10章评分卡分数转化

《Python金融大数据风控建模实战》第10章评分卡分数转化本章引言Python代码实现及注释本章引言将模型预测概率转化为分数并设定分数阈值，是评分卡模型开发中非常重要的部分，这一步直接影响审批策略是否得当，进而影响信贷企业的利润与风险。由概率转化为分数需要满足以下条件：样本总的分数是由每个变量的分数之和累加得到模型预测概率的变化会引起分值以某一单位刻度发生改变每个变量的取值发生变化会引起样本分值的改变Python代码实现及注释# 第10章：评分卡生成import osimpo

2021-03-13 20:45:09 1268

原创《Python金融大数据风控建模实战》第9章模型的评估指标

《Python金融大数据风控建模实战》第9章模型的评估指标本章引言Python代码实现及注释本章引言模型的开发基于历史数据，而模型的使用则针对未来的数据。为了模拟这种建模方式，将数据集分为三部分：训练集、验证集和测试集。模型在训练集上的误差，即真实结果与预测结果间的差异，称为训练误差或经验误差；模型在验证集与测试集上的误差称为泛化误差。单个模型在训练集上训练希望训练误差较小，并在验证集上测试模型表现以确定单个模型的最优参数，当有多个候选模型时，需要在测试集上对比不同模型的测试表现，以选出最优的模型

2021-03-13 17:36:28 793 2

原创《Python金融大数据风控建模实战》第8章 Logistic回归模型

《Python金融大数据风控建模实战》第8章 Logistic回归模型本章引言Python代码实现及注释本章引言Logistic回归是建立评分卡模型最常用的方法，因其具有输出概率、可解释性好和模型参数少等优势，即使在其他各种机器学习算法突飞猛进的情况下，也仍然是工业界建立评分卡模型的主流方法，其模型表现也常作为参考标准，用于衡量其他机器学习模型的效果。Python代码实现及注释# 第8章：logistic回归模型import osimport pandas as pdimport nump

2021-03-13 11:35:12 1264 2

原创《Python金融大数据风控建模实战》第7章变量选择

《Python金融大数据风控建模实战》第7章变量选择本章引言Python代码实现及注释本章引言变量选择常见的方法有过滤法、包装法、嵌入法，并且在上述方法中又有单变量选择、多变量选择、有监督选择、无监督选择。在实际应用中，单纯从数据挖掘的角度进行变量选择是不够的，还要结合业务理解对选择后的变量进行回测，以符合业务解释。Python代码实现及注释# 第7章：变量选择'''在变量分箱的基础上进行变量编码，然后进行变量编码，然后进行变量选择，变量选择程序主要采用scikit-learn包中的fea

2021-03-07 15:18:12 1418 4

原创数据结构（C语言版）严蔚敏吴伟民编著第10章内部排序

数据结构（C语言版）严蔚敏吴伟民编著第10章内部排序10.1 概述10.2 插入排序10.2.1 直接插入排序10.2.2 其他插入排序10.1 概述排序是将一个数据元素（或记录）的任意序列，重新排列成一个按关键字有序的序列。从第9章讨论中可以看出，通常希望计算机中的表是按关键字有序的。因为有序的顺序表可以采用效率更高的折半查找法，其平均查找长度为log2（n+1）-1，而无序的顺序表只能进行顺序查找，其平均查找长度为（n+1）/2。又如建造树表（无论是二叉排序树或B-树）的过程本身就是一个排序

2021-03-02 17:02:58 933 1

原创数据结构（C语言版）严蔚敏吴伟民编著第9章查找

数据结构（C语言版）严蔚敏吴伟民编著第9章查找前言9.1 静态查找表9.1.1 顺序表的查找9.1.2 有序表的查找9.1.3 静态树表的查找9.1.4 索引顺序表的查找9.2 动态查找表9.2.1 二叉排序树和平衡二叉树前言本书在第2章和第7章已经介绍了各种线性和非线性的数据结构，在这一章将讨论另一种在实际应用中大量使用的数据结构——查找表。查找表是由同一类型的数据元素（或记录）构成的集合。由于集合中的数据元素之间存在着完全松散的关系，因此查找表是一个非常灵便的数据结构。对查找表经常进行的

2021-02-28 17:16:42 812

原创数据结构（C语言版）严蔚敏吴伟民编著第7章图

数据结构（C语言版）严蔚敏吴伟民编著第7章图前言7.1 图的定义和术语7.2 图的存储结构7.2.1 数组表示法前言在图形结构中，结点之间的关系可以是任意的，图中任意两个元素之间都可能相关。由此，图的应用极为广泛，已渗入到诸如语言学、逻辑学、物理、化学、电讯工程、计算机科学以及数学的其他分支中。7.1 图的定义和术语在图中的数据元素通常称为顶点，V是顶点的有穷非空集合，VR是两个顶点之间的关系的集合。若<v,w>∈VR，则<v,w>表示从v到w的一条弧，且称v为弧尾或

2021-02-24 16:57:29 804 1

原创数据结构（C语言版）严蔚敏吴伟民编著第6章树和二叉树

数据结构（C语言版）严蔚敏吴伟民编著第6章树和二叉树前言6.1 树的定义和基本术语二、使用步骤前言树形结构是一类重要的非线性数据结构，其中以树和二叉树最为常用，直观看来，树是以分支关系定义的层次结构。树在计算机领域中也得到广泛应用，如在编译程序中，可用树来表示源程序的语法结构。又如在数据库系统中，树形结构也是信息的重要组织形式之一。本章重点讨论二叉树的存储结构及其各种操作，并研究数和森林与二叉树的转换关系。6.1 树的定义和基本术语树是n（n≥0）个结点的有限集。在任意一棵非空树中：（1）

2021-02-19 20:43:41 731

原创数据结构（C语言版）严蔚敏吴伟民编著第5章数组和广义表

数据结构（C语言版）严蔚敏吴伟民编著第5章数组和广义表前言5.1 数组的定义5.2 数组的顺序表示和实现5.3 矩阵的压缩存储5.3.1 特殊矩阵5.3.2 稀疏矩阵5.4 广义表的定义5.5 广义表的存储结构前言前几章讨论的线性结构中的数据元素都是非结构的原子类型，元素的值是不再分解的。本章讨论的两种数据结构——数组和广义表可以看成是线性表在下述含义上的扩展：表中的数据元素本身也是一个数据结构。5.1 数组的定义类似于线性表，抽象数据类型数组可形式化定义为：ADT Array{ 数据

2021-02-18 21:37:20 1252 1

原创数据结构（C语言版）严蔚敏吴伟民编著第4章串

数据结构（C语言版）严蔚敏吴伟民编著第4章串前言4.1 串类型的定义前言计算机上的非数值处理的对象基本上是字符串数据。在较早的程序设计语言中，字符串是作为输入和输出的常量出现的。随着语言加工程序的发展，产生了字符串处理。这样，字符串也就作为一种变量类型出现在越来越多的程序设计语言中，同时也产生了一系列字符串的操作。字符串一般简称为串。在汇编和语言的编译程序中，源程序及目标程序都是字符串数据。在事务处理程序中，顾客的姓名和地址以及货物的名称、产地和规格等一般也是作为字符串处理的。又如信息检索系统、

2021-02-17 22:20:47 888

原创数据结构（C语言版）严蔚敏吴伟民编著第3章栈和队列

数据结构（C语言版）严蔚敏吴伟民编著第3章栈和队列前言3.1 栈3.1.1 抽象数据类型栈的定义3.1.2 栈的表示和实现3.2 栈的应用举例3.2.1 数制转换3.2.2 括号匹配的检验3.2.3 行编辑程序3.2.4 迷宫求解3.2.5 表达式求值3.3 栈与递归的实现3.4 队列3.4.1 抽象数据类型队列的定义3.4.2 链队列——队列的链式表示和实现3.4.3 循环队列——队列的顺序表示和实现前言栈和队列是两种重要的线性结构，从数据结构角度看，栈和队列也是线性表，其特殊性在于栈和队列的

2021-02-17 16:50:20 662

原创数据结构（C语言版）严蔚敏吴伟民编著第2章线性表

数据结构（C语言版）严蔚敏吴伟民编著第2章线性表前言2.1 线性表的类型定义2.2 线性表的顺序表示和实现2.3 线性表的链式表示和实现2.3.1 线性链表2.3.2 循环链表2.3.3 双向链表2.4 一元多项式的表示和相加前言从第2章到第4章将讨论线性结构，线性结构的特点：是在数据元素的非空有限集合中存在唯一的一个被称作“第一个”的数据元素存在唯一的一个被称作“最后一个”的数据元素除第一个外，集合中的每个数据元素均只有一个前驱除最后一个外，集合中的每个数据元素均只有一个后继2.

2021-02-16 22:31:29 902

原创数据结构（C语言版）严蔚敏吴伟民编著第1章绪论

数据结构（C语言版）严蔚敏吴伟民编著第1章绪论1.1 什么是数据结构？1.2 基本概念和术语1.3 抽象数据类型的表示与实现1.1 什么是数据结构？用计算机解决一个具体问题时，大致需要经过下列几个步骤：首先要从具体问题抽象出一个适当的数学模型，然后设计一个解此数学模型的算法，最后编出程序，进行调试，调整直至得到最终解答。寻找数学模型的实质是分析问题，从中提取操作的对象，并找出这些操作对象之间含有的关系，然后用数学的语言加以描述。描述这类非数值问题的数学模型不再是数学方程，而是诸如表、树和图之类的

2021-02-12 13:12:57 1081 2

原创《Python金融大数据风控建模实战》第6章变量分箱方法

《Python金融大数据风控建模实战》第6章变量分箱方法本章引言Python代码实现及注释本章引言变量分箱是一种特征工程方法，意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量，对于变量取值较稀疏的离散变量也应该进行分箱处理。变量分箱对模型的好处：降低异常值的影响，增强模型的稳定性数据中存在异常值会使模型产生一定的偏差，从而影响预测效果。通过分箱模型可以降低异常值的噪声特性，使模型更稳健。树模型对异常值不敏感，但Logistic回归模型和神经网络对异常值敏感。缺失值作为特

2021-02-11 17:19:31 2897 6

原创《Python金融大数据风控建模实战》第5章变量编码方法

《Python金融大数据风控建模实战》第5章变量编码方法本章引言Python代码实现及注释本章引言在机器学习中，样本、变量、标签、模型等概念会频繁出现，本章从变量角度给出实际应用中的处理方法。机器学习模型通常只能处理结构化数据，而非结构化数据要转化为结构化数据才可以用于模型训练。在机器学习中，变量、字段、属性、特征、输入、预测因子、自变量是同一个意思，样本、观测、实例、记录是同一个意思，结果、预测变量、输出、目标、因变量、响应、标签是同一个意思。在统计学中，将变量按照取值是否连续分为离散变量和连续

2021-02-06 21:35:40 1282

原创《Python金融大数据风控建模实战》第4章数据清洗与预处理

《Python金融大数据风控建模实战》第4章数据清洗与预处理本章引言Python代码实现及注释《Python金融大数据风控建模实战》第4章数据清洗与预处理本章引言数据清洗与预处理是整个评分卡模型开发乃至整个机器学习模型开发中非常重要的部分，通常包括数据集成、数据清洗、探索性数据分析和数据预处理。数据集成：将多个数据源的数据构成一个统一的数据结构或数据表的过程。如果不同数据源有结构化数据与非结构化数据，数据集成时要统一转换为结构化数据，并存储在数据库或数据表中，以备后续模型开发时使用。数据清

2021-02-04 18:20:39 2291 9

小成星际的博客