- 博客(137)
- 资源 (1)
- 收藏
- 关注
原创 库兹涅茨周期
库兹涅茨周期认为,在经济发展的早期阶段,社会经济的不平等程度会随着经济增长而增加。库兹涅茨周期的关键观点是,社会经济的不平等程度在经济发展的过程中会出现一个倒U型的变化曲线。成熟阶段:在经济发展的成熟阶段,收入和财富的不平等程度达到一个相对平衡的状态,社会经济的不平等程度开始减少。发展阶段:随着经济的发展,更多的人参与到经济活动中,经济增长更加广泛,收入和财富开始向更多的人群分配。初始阶段:在经济的初始阶段,经济增长主要由少数富裕的人或地区主导,导致收入和财富的不平等程度增加。
2023-10-25 11:51:26 520
原创 初识分类问题
分类的目的就是找到这条线,用一条线将图中白色的点和黑色的点分开,只要找到这条线,就可以根据点在线的哪一边来判断图像是横向还是纵向的了。将图像数据转换为坐标: 白色的点是纵向图像,黑色的点是横向图像。根据尺寸把图像分类为纵向图像和横向图像,是二分类问题。
2023-06-12 11:33:49 389
原创 随机梯度下降法
梯度下降法更新1次参数的时间,随机梯度下降法可以更新n次。此外,随机梯度下降法由于训练数据是随机选择的,更新参数时使用的又是选择数据时的梯度,所以不容易陷入目标函数的局部最优解。这是介于最速下降法和随机梯度下降法之间的方法,不管是随机梯度下降法还是小批量梯度下降法,我们都必须考虑学习率η。当然,可以随机选择1个训练数据的做法,也肯定有随机选择m个训练数据来更新参数的做法。这个表达式中的k就是被随机选中的数据索引。比如以下形状的函数,最优解取决于初始值的选取。设随机选择m个训练数据的索引的集合为K,
2023-05-30 18:18:44 786
原创 多变量->多重回归
同样,求参数θ0, ···, θ3,也是分别求目标函数对θ0, ···, θ3的偏微分。之前的案例是根据广告费来预测点击量,但是,实际中要解决的很多问题是变量超过2个的复杂问题,也就是说,会有多个自变量X。举个例子:决定点击量的除了广告费之外,还有广告的展示位置和广告版面的大小等多个要素。像这样包含了多个变量的回归称为。
2023-05-30 17:48:39 140
原创 多项式回归
可以看出,即使增加参数,比如有θ3、θ4等,依然可以用同样的方法求出它们的更新表达式。在上一个案例中,使用了一次函数来拟合了广告费与点击量的关系,但如图,用曲线来拟合数据点或许更好。像这样增加函数中多项式的次数,然后再使用函数的分析方法被称为。
2023-05-30 14:17:19 64
原创 回归问题里的数学
投入的广告费越多,广告的点击量就越高,进而带来访问数的增加,不过点击量经常变化,投入同样的广告费未必能带来同样的点击量。根据广告费和实际点击量的对应关系数据,可以将两个变量用下面的图展示出来。如上图,如果花了200日元的广告费,广告的点击量大概是500次左右。这就是机器学习,从数据中进行学习,然后给出预测值。
2023-05-30 11:49:26 477 1
原创 机器学习算法
回归是处理连续数据时使用的方法,如时间序列数据。股价就是时间序列数据的一个例子,身高和体重本身就是连续的数据,假如记录下每天的身高和体重,那么得到的数据就是类似于股价的时间序列数据了。从这样的数据中学习它的趋势,求出“明天的股价会变为多少”“今后的趋势会怎样”的方法就是回归算法。当然了,股价的变动不只受过去股价的影响,所以光靠这个信息并不能很好地预测出来。
2023-05-29 16:08:07 566
原创 机器学习概述
无论是过去还是现在,计算机都特别擅长处理重复的任务。所以计算机能够比人类更高效地读取大量的数据、学习数据的特征并从中找出数据的模式。这样的任务也被称为机器学习或者模式识别。
2023-05-29 15:34:30 40
原创 [LightGBM] [Warning] Stopped training because there are no more leaves that meet the split requireme
lightgbm
2023-05-23 16:53:17 1201
原创 使用LightGBM模型的特征重要性
总之,gbm.feature_importance()返回每个特征的相对重要性评分,评分的计算依赖于整体的训练过程,方法有gain和weight之分,官方推荐使用weight方法。所以特征重要性的 Evaluation 主要依赖于整体的训练过程,而不是某一次训练的结果。它返回的是每个特征的相对重要性评分。特征重要性分析可以帮助我们理解模型,发现并去除不相关的特征,提高训练的速度和效果。小的特征重要性评分值代表当前特征对该模型的贡献较小,可以考虑去除。将所有特征的评分进行标准化,得出各特征的相对重要性排名。
2023-05-05 16:07:50 3542
转载 数据的向量表示、降维问题及PCA算法
内容来源:http://blog.codinglabs.org/articles/pca-tutorial.html在数据挖掘或机器学习工作中,数据常被表示为向量。比如,某个淘宝店2012年全年的流量及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下:(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起
2020-05-31 20:16:39 2781 1
转载 python中copy()和deepcopy()
参考文章:https://blog.csdn.net/u010712012/article/details/797541321. python的赋值与存储方式#第一种情况>> a = [1, 2, 3]>>> b = a>>> a = [4, 5, 6] //赋新的值给 a>>> a[4, 5, 6]>...
2020-03-30 19:11:02 237
原创 多因子模型 —— 因子正交化处理
Why do this?传统的多因子模型处理共线性的方法,如IC加权、IR加权,ICIR加权等,都以IC值为基础确定各因子在模型中的权重。而IC是当期因子暴露与下一期收益间的相关系数。传统方法的缺陷是:如果因子间存在较强的相关性,通过上述加权方式,最终会导致因子对于某种风格的因子重复暴露。使得整个组合的表现严重偏向于该因子,削弱其他因子的效果。具体来说,当因子表现好时,组合会获得更高的...
2020-03-29 16:32:42 12229 3
原创 多因子选股模型 —— 因子间相关性检验和等权因子法
1. import package and download datafrom atrader import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport mathimport statsmodels.api as smimport datetime as dtimpor...
2020-03-28 17:16:02 8819 1
原创 多因子选股模型 —— 因子历史收益率(因子与股票收益率回归后的收益率)加权法
1. import package and download datafrom atrader import *import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport mathimport statsmodels.api as smimport datetime as dtimpor...
2020-03-28 16:50:01 4895
原创 python线性回归 多因子模型选股思路
PB-ROE提供了一种投资的框架,这种框架是说,股票的PB和ROE之间存在近似的线性关系,ROE越高,PB越高,因此如果同时根据PB、ROE值来投资,很难选到同时满足PB最小、ROE最大的股票。但可以根据他们的线性关系进行选择,回归直线上的点可以视为合理的PB、ROE组合水平,这样位于回归线下方的股票都是PB被低估的,未来有很大的上升修复空间,而位于回归线上方的股票都是当前PB被高估的,未来会下降...
2020-03-27 16:39:05 7241 6
原创 线性回归模型 —— 普通最小二乘法(OLS)推导与python实现
一般回归模型中回归的核心任务就是要通过样本信息来估计总体回归函数一元线性回归模型:一元线性回归模型假设x是一维的,即只考虑一个因素对y的影响,模型为 y=+x+μ, E (μ|x)= 0其中, 为回归系数。可以表示为当x = 0,时y的期望值;可以理解为x每增加一个单位,y...
2020-03-26 13:20:37 11859 1
原创 股票多因子选股模型 —— 数据去极值
data_extreme#为什么要做去极值的工作(Why)在做回归分析的时候,因为过大或过小的数据可能会影响到分析结果,离群值会严重影响因子和收益率之间的相关性估计结果,因此需要对那些离群值进行处理## 有哪些去极值的方法(What)根据不同的距离判断标准,去极值有以下三种方法:* MAD法* 3????法* 百分位法## 去极值怎么做(How)一般去极值的处理方法就...
2020-03-25 19:37:03 3608 6
原创 pandas to_excel,把数据存到不同的sheet
writer = pd.ExcelWriter('SPX_HSI_HS300.xls')df_SPX.to_excel(writer,"SPX")df_HSI.to_excel(writer,"HSI")df_HS300.to_excel(writer,"HS300")writer.save()
2020-01-04 16:27:16 1096
原创 Matplotlib练习
fig, ax = plt.subplots(figsize=(12,6))x = np.linspace(0, 5, 10)# # line 1 -- line 4 ,线形图,蓝色线,线宽分别为 0.25 ,0.50 , 1.00 ,2.00ax.plot(x, x+1, color='b', linewidth=0.25)ax.plot(x, x+2, color='b', li...
2019-12-31 10:23:08 164
原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation bytebp_
最近找数据,下载了个csv文件,用pandas打开出现乐编码错误,之前遇到过没注意,这次记录一下bp_data = pd.read_csv("399300.csv")错误原因:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc8 in position 0: invalid continuation byte解决方法,看...
2019-12-30 18:11:20 1436 1
转载 Matplotlib绘图时x轴标签重叠的解决办法import pandas as pd import matplotlib.pyplot as plt # 准备数据 data = {'sport_ty
在使用Matplotlib画图时,我遇到了一个尴尬的情况,那就是当x轴的标签名字很长的时候,在绘制图形时,发生了x轴标签互相重叠的情况。本文主要通过一个简单的示例,探索了以上描述问题的4种解决方法。示例import pandas as pdimport matplotlib.pyplot as plt# 准备数据data = {'sport_type':['running',...
2019-12-30 14:55:49 6983 1
原创 Python 实现小数和百分数的相互转换
最近在画图时候发现我居然不会把分数转为百分比!what?主要是之前也没有过这个需求,anyway,百度一下就有了,这里当记录!1.百分比转为小数,这里默认百分比是字符串# -*- coding: utf-8 -*-s = '20%' # 默认要转换的百分比是字符串aa = float(s.strip('%')) # 去掉s 字符串中的 %bb = aa/100.0print(b...
2019-12-27 13:55:32 8924 1
原创 过滤掉python中的FutureWarning
Python是一门面向对象的语言,换句话说,也就是他有很多的工具库可以调用,这就像我们的手机里的app一样,总是会更新的,那一更新可能有一些功能是改动的,但如果我们不更新app,我们依旧能够使用旧的功能,是没有影响的。所以当python的一些工具库更新了新版本而我们还用着老版本的时候,他就会给我们来个FutureWarning,提示在新的版本,某个功能已经取消了等等,如下图:他说she...
2019-12-26 18:47:28 24050 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人