机器学习
文章平均质量分 58
疯狂的布布
知道越多不知道越多
展开
-
爬取新闻,并使用自然语言技术进行分类
全网抓取国家政策,并使用自然语言技术进行分类原创 2022-09-20 17:24:22 · 417 阅读 · 1 评论 -
基于ricequant隐马尔科夫模型量化交易
看到我这篇文章,相信您已经是有一定的数学基础的,隐马尔科夫模型的介绍这里不做赘述。目录ricequant研究平台训练模型回测框架测试结果我们假设隐藏状态数量是6,即假设股市的状态有6种,虽然我们并不知道每种状态到底是什么,但是通过后面的图我们可以看出那种状态下市场是上涨的,哪种是震荡的,哪种是下跌的。可观测的特征状态我们选择了3个指标进行标示,进行预测的时候假设假设所有的特征向量的状态服从高斯分布,这样就可以使用 hmmlearn 这个包中的 GaussianHMM 进行预测了。下面我会逐步解释。首先导入必原创 2022-07-02 21:16:37 · 662 阅读 · 0 评论 -
【量化】相关系数进行配对交易
根据统计数据,对价差进行买卖,而不去做股票本身趋势的预测,是否能做到旱涝保收呢。下面是利用股票对之间的相关系数来进行配对交易的研究。1,首先想到利用统计套利,可能会想到两只股票的相关系数是否会让两只股票的走势有一种特定关系。同样数据大多都集中在一条直线上找到相关性高的股票对,我们要来研究它们之间的价差,因为这是我们策略套利的关键从图中看出,所以相关系数高,两者之间的价差不一定会围绕一个常数波动,价差会具有一定的变异性,即价差序列是非平稳的。我们来检验下价差的平稳性。进一步的我们来看看以均值加减一倍标原创 2022-06-19 17:28:14 · 466 阅读 · 0 评论 -
Transformer多头注意力机制实现数字预测(pytorch)
transformer模型起初被提出于2017年google的《Attention ls All you Need》中。论文路径:[pdf]transformer完全抛弃了CNN,RNN模型结构。起初主要应用在自然语言处理中,后面逐渐应用到了计算机视觉中。仅仅通过注意力机制(self-attention)和前向神经网络(Feed Forward Neural Network),不需要使用序列对齐的循环架构就实现了较好的performance 。(1)摒弃了RNN的网络结构模式,其能够很好的并行运原创 2022-05-10 19:41:04 · 3940 阅读 · 7 评论 -
傅里叶变换音频加入噪声和去除噪声(python二维fft2,ifft2)
简介标准快速傅立叶变换 fft(a)[,n,axis,norm]) 计算一维离散傅立叶变换。 ifft(a)[,n,axis,norm]) 计算一维逆离散傅立叶变换。 fft2(a)[,s,axes,norm]) 计算二维离散傅里叶变换。 ifft2(a)[,s,axes,norm]) 计算二维逆离散...原创 2022-04-17 16:32:06 · 2530 阅读 · 0 评论 -
傅里叶变换FFT和IFFT在音频去噪的应用
FFTFFT是DFT的快速算法,可以将一个信号从时域变换到频域。有些信号在时域上是很难看出什么特征的,但是如果变换到频域之后,就很容易看出特征了。这就是很多信号分析采用FFT变换的原因。另外,FFT可以将一个信号的频谱提取出来,这在频谱分析方面也是经常用的。去掉FFT变换时,频谱中的直流分量直流分量:理论中,输入=0时,输出=0,没有什么直流分量的;直流分量是输入信号带入的。在模拟部分的电路中,元件输出会有直流漂移,即输出应该为零时,实际上是一个直流电压。通常数字信号去直流直原创 2022-04-17 13:25:47 · 4630 阅读 · 1 评论 -
基于ricequant的lstm时间序列股价预测(pytorch)
import pandas as pdimport matplotlib.pyplot as pltimport datetimeimport torchimport torch.nn as nnimport numpy as npfrom torch.utils.data import Dataset, DataLoader# 确定每月日期 2014-01-01~2016-01-01dates = get_trading_dates(start_date="2018-11-01", e.原创 2022-04-03 18:23:16 · 1985 阅读 · 0 评论 -
Word2Vec实现情感分析(bug修正)
python实现情感分析(Word2Vec)** 前几天跟着老师做了几个项目,老师写的时候劈里啪啦一顿敲,写了个啥咱也布吉岛,线下自己就瞎琢磨,终于实现了一个最简单的项目。输入文本,然后分析情感,判断出是好感还是反感。看最终结果:↓↓↓↓↓↓•加载数据,预处理数据就是正反两类,保存在neg.xls和pos.xls文件中,数据内容类似购物网站的评论,分别有一万多个好评和一万多个差评,通过对它们的处理,变成我们用来训练模型的特征和标记。首先导入几个python常见的库,tr..原创 2022-01-17 21:24:34 · 2687 阅读 · 4 评论 -
(NLP自然语言处理)embedding层详解
全文总结:embedding层可以用来降维(数据压缩),抽取数据特征,也可以用来升维首先,我们有一个one-hot编码的概念。假设,我们中文,一共只有10个字。。。只是假设啊,那么我们用0-9就可以表示完比如,这十个字就是“我从哪里来,要到何处去”其分别对应“0-9”,如下:我 从 哪 里 来 要 到 何 处 去0 1 2 3 4 5 6 7 8 9那么,其实我们只用一个列表就能表示所有的对话如:我 从 哪...原创 2022-01-07 12:47:07 · 4549 阅读 · 5 评论 -
Transformer自注意力机制发展历程(原理)
问题:处理机器翻译时,什么模型比较好?讨论该问题,从模型发展历程阶段1到阶段4展开,从阶段一的模型到阶段4,功能越来越强大,越完善。阶段1:RNN非常合适: |-->强项:单词先后顺序会影响句子的意义,擅长捕捉序列关系的它非常合适 |-->弱项:对于机器翻译来说,单词的对应关系并非一一对应(受限于结构RNN只能处理 N to N,1 to N,N to 1问题,对于N to M很是头疼) |->...原创 2021-12-24 14:14:27 · 1419 阅读 · 0 评论 -
深度学习中的注意力机制
张俊林 (本文2017年发表于《程序员》杂志7月刊) (想更系统的学习深度学习知识?请参考:深度学习枕边书) 如果看图片有问题的同学可以到知乎看相同文章:深度学习中的注意力机制(2017版)最近两年,注意力模型(Attention Model)被广泛使用在自然语言处理、图像识别及语音识别等各种不同类型的深度学习任务中,是深度学习...转载 2021-12-23 15:16:17 · 415 阅读 · 0 评论 -
基于Ricequant时间序列模型预测股价
#!/usr/bin/env python# coding: utf-8import pandas as pdimport numpy as npfrom sklearn.neural_network import MLPRegressorimport matplotlib.pyplot as plttau = 4# 确定每月日期 2014-01-01~2016-01-01dates = get_trading_dates(start_date="2019-11-01", end_da.原创 2021-12-17 20:49:07 · 324 阅读 · 0 评论 -
基于ricequant线性回归量化交易
研究平台代码import pandas as pdimport numpy as npfrom sklearn.linear_model import LinearRegression# 确定每月日期 2014-01-01~2016-01-01dates = get_trading_dates(start_date="2014-01-01", end_date="2016-01-01")# 每天日期---->每月月末# 每月最后一个交易日, 按月计算收益率month_date =原创 2021-12-13 17:10:28 · 1568 阅读 · 0 评论 -
基于ricequant神经网络量化交易
ricequant研究平台代码,用于进行训练模型的生成,训练文件保存import pandas as pdimport numpy as np# 导入BP模型from sklearn.neural_network import MLPClassifier# 导入训练集分割方法from sklearn.model_selection import train_test_split # 确定每月日期 2014-01-01~2016-01-01dates = get_trading_dat原创 2021-12-13 16:49:30 · 1496 阅读 · 2 评论 -
ricequant量化交易文件如何保存和读取
问题描述:笔者在量化交易投资研究中,保存了一个机器学习训练文件,发现在我的策略中进行读取该文件的时候,会报错找不到文件。研究平台示例,保存了笔者的一个神经网络训练文件import pickle# 保存模型with open('model.txt', 'wb') as f: pickle.dump(BP, f)文件已显示保存成功,并在研究平台目录下生成此文件这个时候,笔者 打算到我的策略中,读取研究平台保存的文件,使用如下代码读取# 读取模型with open('m原创 2021-12-13 16:35:04 · 1750 阅读 · 0 评论 -
梯度消失和梯度爆炸真实原因及其解决方案
当我们需要解决一个非常复杂的问题,例如在高分辨率图像中检测数百种类型的对象,我们可能需要训练一个非常深的DNN,可能需要几十层或者上百层,每层包含数百个神经元,通过成千上万个连接进行连接,我们会遇到以下问题:首先,梯度消失或梯度爆炸其次,训练缓慢第三,训练参数大于训练集的风险梯度消失的原因:生物神经元似乎是用 Sigmoid(S 型)激活函数活动的,因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明,Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一转载 2021-12-02 13:09:55 · 286 阅读 · 0 评论 -
【机器学习】【数据预处理】数据的规范化,归一化,标准化,正则化
数据的规范化,归一化,标准化,正则化,这几个破词整得我头晕,首先这些词就没规范好,对数据做实验更晕,网上狂搜一阵后,发现数据归一化,标准化,正则化,还是有差别数据规范化一种是针对数据库的解释规范化理论把关系应满足的规范要求分为几级,满足最低要求的一级叫做第一范式(1NF),在第一范式的基础上提出了第二范式(2NF),在第二范式的基础上又提出了第三范式(3NF),以后又提出了BCNF范式,4NF,5NF。范式的等级越高,应满足的约束集条件也越严格。另一种是就是对数...原创 2021-11-12 13:03:55 · 2317 阅读 · 0 评论 -
用隐马尔科夫模型来预测股价走势
一、初识HMM隐马尔科夫模型(Hidden Markov Model,简称HMM)是用来描述隐含未知参数的统计模型,HMM已经被成功于语音识别、文本分类、生物信息科学、故障诊断和寿命预测等领域。HMM可以由三个要素组成:=(A,B,II),其中A为状态转移概率矩阵,B为观测状态概率矩阵,II为隐藏状态初始概率分布。HMM有两个基本假设,一是齐次马尔可夫性假设,隐马尔可夫链t的状态只和t-1状态有关;二是观测独立性假设,观测只和当前时刻状态有关。HMM解决的三个问题: 一是概率计算问题.转载 2021-09-30 21:50:12 · 2334 阅读 · 3 评论 -
手写决策树ID3算法(python)
决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。缺点:可能会产生过度匹配的问题。使用数据类型:数值型和标称型。简单介绍完毕,让我们来通过一个例子让决策树“原形毕露”。一天,老师问了个问题,只根据头发和声音怎么判断一位同学的性别。为了解决这个问题,同学们马上原创 2021-09-26 15:23:21 · 2276 阅读 · 1 评论 -
神经网络多分类算法
本文主要教神经网络原理+神经网络算法实现反向传播算法是目前用来训练人工神经网络(Artificial Neural Network,ANN)的最常用且最有效的算法,其主要思想是:将训练集数据输入到ANN的输入层,经过隐藏层,最后达到输出层并输出结果,这是ANN的前向传播过程;由于ANN的输出结果与实际结果有误差,则先计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。...原创 2021-09-22 20:29:30 · 2480 阅读 · 0 评论 -
梯度下降算法实现
分治方法:先分成n×n个点进行搜索,选择最低的点,对最低的点再分成n×n份再次进行搜索,选择最小的值,反复如此,找到最小值。但是这对于凸函数是较为有用的,对于不规则的函数,可能搜索到的是极小值点(局部最优点),而不是最小值点(全局最优点)。Gradient Descent Algorithm : 梯度下降算法(贪心思想,局部最优)Gradient : 梯度,梯度大于0上升,梯度小于0下降,所以参数向梯度的反方向更新。w = w − x g ′ ( w ) w=w-xg'(w)w=w−xg′(..原创 2021-09-13 22:14:33 · 146 阅读 · 0 评论 -
机器学习公式(代价函数,梯度下降函数)
多元梯度下降法特征缩放法特征缩放法一般喜欢把范围 取在 -1 < x < 1附近,所以,我们应该尽可能将原来表达式通过加减法得到这个范围x = (当前值 - (范围内平均值))/范围梯度下降法求 特征值 与 正规方程法求特征值比较,在变量数小于1万,一般选用正规方程法较快,数量大于1万选择梯度下降法逻辑回归利用逻辑回归预测...原创 2021-08-11 17:33:00 · 359 阅读 · 0 评论