- 博客(77)
- 收藏
- 关注
原创 python轻量级框架-flask
之所以称为微框架,是因为它与一些大型Web框架(如Django)不同,并不捆绑数据库管理、表单验证等功能,而是保持了极简的核心,只包含了路由、模板引擎和WSGI服务器的基本功能,使开发者可以根据需求选择合适的扩展来构建应用。视图函数可以通过@app.route和app.add_url_rule来进行注册(映射到url),但类视图只能通过app.add_url_rule来注册,注册时view_func不能直接使用类名,需要调用基类中的as_view方法来为自己取一个“视图函数名”
2025-01-19 19:52:21
2976
1
原创 消息中间件-kafka工作原理和配置
kafka由开源搭建的解决信息生产和信息消费的消息系统的一个框架,它实现了生产者和消费者之间的无缝连接 ,具备高产出的分布式消息系统(A high-throughput distributed messaging system)。Apache kafka 是一个分布式的基于push-subscribe的消息系统,和redis很类似,它具备快速、可扩展、可持久化的特点。
2025-01-12 01:00:55
1123
原创 大数据数仓Hive和数据集市、数据治理
为企业制定决策、提供数据支持的,可以帮助企业改进业务流程提高产品质量等。DW不是数据最终目的地,而是为数据最终目的地做好准备,这些准备包括对数据的备份,清洗,转义、分类、重组、合并、拆分、聚合,统计等。是在数据库已经大量存在数据的情况下,一整套包括了ETL(用于描述将数据从来源端经过抽取、转换、加载到目的端的过程)、调度、建模在内的完整理论体系。
2025-01-01 14:57:51
1467
原创 AI大模型语音识别转文字
本项目作用在于将常见的会议录音文件、各种语种音频文件进行转录成相应的文字,也可从特定视频中提取对应音频进行转录程文字保存在本地。最原始的从所给网址下载对应视频和音频进行处理。下载ffmpeg(。
2024-12-29 19:32:22
1630
原创 深度学习算法
要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果。在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的,Gauss分布说明了误差影响(浮动)不会很大,极小情况下影响会比较大,但这也属于正常情况,中心极限定理证明在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
2024-12-11 00:53:01
779
原创 windows11安装Linux子系统配置大数据hadoop和python环境
在Hive中,数据定义语言(DDL)是一种用于定义数据结构的语言,如表、分区和桶。创建表是使用DDL中最常见的任务之一。use test;id INT,创建一个名为employeesidnamesalary, 和department。这些字段分别被定义为整型(INT)、字符串(STRING)、浮点型(FLOAT)和字符串类型(STRING)。此表使用逗号作为字段分隔符,并以文本格式存储。表创建后,可能会出现需要修改表结构的情况。例如,要向employees表中添加一个新字段age。
2024-12-08 01:36:51
1388
原创 impala
由 Impalad 进程表示,它接收客户端的查询请求(接收查询请求的Impalad为coordinator,Coordinator 通过JNI 调用java前端解释SQL查询语句,生成查询计划树,再通过调度器把执行计划分发给具有相应数据的其它Impalad 进行执行(可以将查询提交到专用impalad或以负载平衡方式提交到集群中的另外一个impalad)),读写数据,并行执行查询,并把结果通过网络流式的传送回给 Coordinator,由 Coordinator 返回给客户端。
2024-11-10 02:04:02
929
原创 python入门
代码中被写下来的固定的值,Python中常用的有种值(数据)的类型:没有double字符串(string)又称文本,是由任意数量的字符如中文、英文、各类符号、数字等组成。所以叫做字符的串。列表list。
2024-10-17 11:12:23
36
原创 mysql
事先经过编译并存储在数据库中的一段 SQL语句的集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是有好处的。对视图进行增删改本质上就是对基表的修改,视图并不存储数据,当使用WITH CHECK OPTION子句创建视图时,MySQL会通过视图检查正在更改的每个行,例如 插入,更新,删除,以使其符合视图的定义。第二层架构主要完成大多数的核心服务功能,如SQL接口,并完成缓存的查询,SQL的分析和优化,部分内置函数的执行。
2024-10-09 18:19:09
1186
1
原创 win11远程连接MySQL(linux版),不需安装docker容器
当然也可以用FinalShell进行linux交互操作,FinalShell是一款免费的国产的集SSH工具、服务器管理、远程桌面加速的软件,同时支持Windows,macOS,Linux,它不单单是一个SSH工具,完整的说法应该叫一体化的的服务器,网络管理软件,在很大程度上可以免费替代XShell。是因为WSL版本由原来的WSL1升级到WSL2后,内核没有升级,前往微软WSL官网下载安装适用于 x64 计算机的最新 WSL2 Linux 内核更新包即可。要运行Linux GUI还需要安装相关的图形驱动。
2024-10-04 20:44:43
1370
原创 qlib数据装载与模型搭建
API接口,方便user管理(manage)和检索(retrieve)自己的数据。数据装载好后依据实际需求和任务目标收益率搭建模型进行回测或实盘进行下单操作,同时需要进行风控和指标分析。
2024-05-09 23:16:20
656
原创 基于树的时间序列预测(LGBM)
梯度提升模型特别适用于处理复杂的数据集,可以处理大量特征和特征之间的交互,并且对过度拟合也很稳健,同时能够处理缺失值。在大多数时间序列预测中,尽管有Prophet和NeuralProphet等方便的工具,但是了解基于树的模型仍然具有很高的价值。ARIMA 模型使用过去的值来预测未来的值,因此过去的值是重要的候选特征,可以创建许多滞后回归因子。创建基于时间的特征,包括日期、星期、季度等各种特征,通过 pandas series 的 "date" 类中提供的一系列函数,可以轻松实现这些需求。
2024-05-06 22:41:04
1823
2
原创 拆单算法交易(Algorithmic Trading)
TWAPTWAP交易时间加权平均价格Time Weighted Average Price 模型,是把一个母单的数量平均地分配到一个交易时段上。该模型将交易时间进行均匀分割,并在每个分割节点上将拆分的订单进行提交。例如,可以将某个交易日的交易时间平均分为N 段,TWAP 策略会将该交易日需要执行的订单均匀分配在这N个时间段上去执行,从而使得交易均价跟踪TWAP,计算公式为:TWAP不考虑交易量的因素。TWAP的基准是交易时段的平均价格,它试图付出比此时段内平均买卖
2024-04-29 15:25:25
3679
原创 机器学习数据预处理—统计分析方法
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。变量类型:定类变量、定量(离散和连续)变量样本个体或指标变量按其具有的特性进行分类,寻找合理的度量事物相似性的统计量。
2024-04-06 17:40:51
2156
原创 LGBM算法 原理
GBDT (Gradient Boosting Decision Tree) 是机器学习中一个长盛不衰的模型,其主要思想是利用弱分类器(决策树)迭代训练以得到最优模型,该模型具有训练效果好、不易过拟合等优点。GBDT不仅在工业界应用广泛,通常被用于多分类、点击率预测、搜索排序等任务。而LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
2024-03-25 23:26:01
3783
原创 数据分析与挖掘
在大数据系统上进行的离线计算通常针对(某一方面的)全体数据,比如针对历史上所有订单进行商品的关联性挖掘,这时候数据规模非常大,需要较长的运行时间,这类计算就是离线计算。MapReduce、Spark、Hive、Spark SQL这些技术主要用来解决离线大数据的计算,也就是针对历史数据进行计算分析,比如针对一天的历史数据计算,一天的数据是一批数据,所以也叫批处理计算。HBase的主要用途是在某些场景下,代替MySQL之类的关系数据库的数据存储访问,利用自己可伸缩的特性,存储比MySQL多得多的数据量。
2024-03-24 16:05:02
1803
原创 小知识+时间复杂度+空间复杂度解释
的那 两个 整数,并返回它们的数组下标。你可以假设每种输入只会对应一个答案。但是,数组中同一个元素在答案里不能重复出现。你可以按任意顺序返回答案。,请你在该数组中找出 和为目标值。1、给定一个整数数组。
2024-02-20 11:25:28
207
原创 Qlib从入门到精通
前面谈到了简单的一个示例代码,实际上里面的策略源码和模型回测源码都需要好好了解,他这个回测系统和我之前用到的回测策略代码有不一样的地方,作为一个量化策略攻城狮,掌握源码是基本的技能。Qlib内置的数据采集里,已经支持了采集基金数据,是网上收集公募基金的数据,由于我们量化仅需要ETF的数据,所以。Qlib内置了A股、美股两个市场的历史数据,上一篇文章也谈到过,可以通过运行如下的脚本把数据自动获取到本地。dump_bin是把csv格式的数据转换为qlib的格式,这样qlib就可以使用。
2023-12-31 20:20:20
3194
5
原创 制作系统U盘启动surface教程
有三个选项,直接下最后iso镜像选项,因为预览版系统的版本要比所有系统版本都要高,你下载第一个安装助手不行的,他告诉你你的已经是最新的,更新不了更回退不了,第二个也不行,我就是用第二个给刷崩的,第二个安装介质他会创建U盘介质启动项,结果在创建分区安装的时候会提示install win.ini fail,并且分区还分区失败,那个next灰色的点不了,这个时候你就只有哭的机会了。
2023-12-27 23:07:09
1967
原创 java配置+J_IDEA配置+git配置+maven配置+基本语句
文件名删除文件夹:rd 文件夹名,rd /s 带子文件夹一起删。创建文件夹:mkdir。当前目录文件夹dir。目录不为空不能直接删。
2023-12-18 11:37:59
1052
原创 量化交易全流程(八)
例如,如果数据集包含20个特征,并且要选择5个特征的子集来构建不同的决策树,则将随机选择这5个特征,并且任何特征都可以是多个子集的一部分。与数据集的随机选取相似,随机森林中的子决策树的每一个分裂过程并未用到所有的决策点,而是从所有的决策点中随机选取一定的决策点,再在随机选取的决策点中选取最优的决策点。第一,从初始的数据集中采取有放回的抽样方式,构造子数据集,子数据集的数据量和初始数据集相同。第三,如果有新的数据需要通过随机森林得到分类结果,可以通过对子决策树的判断结果进行投票,得到随机森林的输出结果。
2023-12-04 12:50:34
356
原创 量化交易全流程(七)
均值﹣方差理论的核心思想是同时考察资产组合的预期收益和风险。研究当我们有一系列可选资产的时候,应如何对其配置资金权重,从而可以得到最好的收益风险比?现代资产组合理论(Modern Portfolio Theory,MPT)是金融理论的重要基础。这一理论是由马克威茨(Harry Markowitz)首先提出的,因为这一理论,马克威茨荣获了1990年的诺贝尔经济学奖。当然,这里介绍的模型是最基础的模型,现实实践中往往并不能直接使用。□假设资产的风险可以用资产收益率的方差(标准差)进行估计。
2023-10-08 23:38:32
1072
原创 量化交易全流程(六)(待完善补充)
同时,也要注意到,Beta系数不一定是稳定的,而且不同的历史样本,算出来的 Beta 系数肯定是不一样的。然而,即使有了基准组合,管理者的投资也不一定包括基准组合中的所有股票。实际上这是一个迭代的过程,当将最显著的因子纳入模型之后,后面的因子需要接受更为严格的检验才能纳入,只有当它们能够增加模型的解释能力的时候才考虑将其纳入。不过,虽然APT 模型提出了一个很好的框架,但该理论并没有告诉我们,因子是什么,如何计算一只股票对因子的风险头寸,所以APT还需要进行进一步的完善和研究,才能真正用于实际投资。
2023-10-04 18:03:37
434
1
原创 量化交易全流程(五)
最基本的回测系统是指,当我们有一组交易规则,需要根据历史数据来获取这组交易规则的业绩表现时,除了给出历史表现之外,有时候还需要优化参数。这些系统都是回测系统的一部分。在我们研究策略的时候,需要知道某个策略的历史表现,这种情况就需要编写回测程序来查看了。口 使用现成的商业软件,这种商业软件提供的编程语言大体包含两类,一类是比较简单的Easy Language,比如Multicharts、Tradeblazer、文华财经等。本节主要讨论回测相关的内容,包括两种不同的回测机制,即向量化回测和事件驱动回测;
2023-10-03 15:06:02
722
原创 量化交易全流程(四)
本节目录数据准备(数据源与数据库)CTA策略数据源:在进行量化分析的时候,最基础的工作是数据准备,即收集数据、清理数据、建立数据库。下面先讨论收集数据的来源,数据来源可分为两大类:免费的数据源和商业数据库。免费数据源包括新浪财经、Yahoo财经等。这些数据源提供的接口比较复杂,不是很好用。好消息是,Python中有对应的开源工具可以让数据获取变得简单。比如,akShare 能够获取新浪财经的数据,pandas-reader能够获取 Yahoo Finance 的数据。
2023-10-03 14:57:33
688
1
原创 量化交易全流程(三)
----------------------------------------------金融基础概念-------------------------------------------------------
2023-09-17 19:15:33
747
原创 部署云MYSQL(在线版)+查看系统所有信息的命令
网站上可以部署免费的MYSQL,在应用商店里能看到可以搭建多种数据库:(前提是要注册登录,免费版只能是2人共享)然后新建项目:会填写名称,密码,但是部署端口和域名由于免费版无法更改,因此也不需要改,如果要删除项目可以点击项目,进入左栏设置:就可以看到删除项目。登陆好后,点击工作台,选择应用商店:可以看到有。
2023-09-16 19:30:20
332
原创 量化交易全流程(二)
-------------------------------------------统计分析基础--------------------------------------------
2023-09-13 01:13:58
292
原创 量化交易全流程(一)
本节目录:1、前沿介绍2、各软件的使用比较3、变成环境的搭建4、集成开发环境的介绍(IDE)5、python常用库的介绍5.1、numpy5.2、scipy5.3、pandas6、可视化分析6.1、实时行情,历史行情,Tick行情,公司公告,股指行情获取(接口介绍)6.2、K线图、折线图、散点图、条形图、直方图、饼图、函数图、热力图、可交互K线图
2023-09-03 22:14:18
1506
原创 自然语言处理:提取长文本进行文本主要内容(文本意思)概括 (两种方法,但效果都一般)
----------------------------------方法一:jieba分词提取文本(句子赋分法)------------------------------------------------------------方法二:封装成界面(句子赋分法)-------------------------这部分要安装的库包括:jieba,re,这部分作用是利用正则表达式把文本去除类似于:[数字];本文主要针对长文本进行文本提取和中心思想概括,原文档放在了附件里面:
2023-09-02 12:44:39
2479
基于深度学习的高频数据因子挖掘-多因子Alpha,深度学习神经网络模型需要优化,且对沪深300市场有重复数据处理有问题,需要改正
2024-11-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人