- 博客(32)
- 资源 (2)
- 问答 (2)
- 收藏
- 关注
原创 OLS回归分析理论基础
由于目前的实证研究中需要对变量间的因果关系进行定量分析,所以以伍德里奇和陈强两版本计量经济学教材为基础,有针对性的整理出OLS回归的相关知识,以解决实证分析中的实际问题。1)本文重点:本文重点研究OLS下面板数据的有效性,重点关注遗漏变量问题2)本文缺陷:本文为有倾向性的知识整理,并非两本教材的整体综述;由于笔者才疏学浅,重文字描述轻数学推导。
2023-07-03 09:14:45 7037 1
原创 TOPSIS综合评价模型Python实现
1.TOPSIS法介绍2. 计算步骤(1)数据标准化(2)得到加权后的矩阵(3)确定正理想解和负理想解(4)计算各方案到正(负)理想解的距离(5)计算综合评价值3.实例研究3.1 导入相关库3.2 读取数据3.3 读取行数和列数3.4 数据标准化3.5 得到信息熵3.6 计算权重3.7 计算权重后的数据3.8 得到最大值最小值距离3.9 计算评分总代码。TOPSIS法 —— python_洋洋菜鸟的博客-CSDN博客_topsis python。
2023-02-08 13:11:35 1923 1
原创 TCN时空卷积网络 python 简单实现
本文基本参照 【python量化】用时间卷积神经网络(TCN)进行股价预测_敲代码的quant的博客-CSDN博客_卷积神经网络对时间序列的预测对TCN时空卷积网络进行简单的python实现,用于理解TCN网络运行机制并以备后查,运行环境为python3.8.6 ,创建项目目录如下: 1.其中test.csv和train.csv分别为测试和训练数据,为随机创建的回归数据,columns =[a1,a2,a3,a4,a5,a6,a7,a8,y] 其中y是标签列;2.run.py为执行脚本,实现训练-输出
2022-06-22 11:29:52 3343 7
转载 tensorflow mnist数据集全连接神经网络 python简单实现
#coding:utf-8import tensorflow as tffrom tensorflow import kerasfrom keras import layers"""基于tensorflow框架/mnist数据集,建一个三层全连接神经网络的10分类模型;python代码的简单实现参考文献:Tensorflow文档 函数式API部分 https://tensorflow.google.cn/guide/keras/functional详细解释:Epoch、batc.
2022-05-10 17:44:38 335
原创 python 字典简单实现Switch Cash
"""python 字典实现Switch Cash"""def func_1(str): str = str.replace("a","") return strdef func_2(str): str = str.replace("a", "aa") return strdef notify_result(type, str): types = { "f1" : func_1, "f2": func_2, }..
2022-02-28 14:05:06 351
转载 catBoost regression Python 简单实现
# coding:utf-8import timenotebookstart = time.time()import pandas as pdfrom sklearn import metricsfrom catboost import CatBoostRegressorfrom pylab import *mpl.rcParams['font.sans-serif'] = ['SimHei'] #绘图正常显示中文"""catboost 回归简单实现"""######1.加载数据.
2022-02-24 17:22:18 1300 2
转载 kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案 特征处理代码
import pandas as pdimport numpy as np"""kaggle支付反欺诈:IEEE-CIS Fraud Detection第一名方案 特征处理"""###### 1.加载数据df_train = pd.read_csv(r"C:\Users\ld\Desktop\yc18\train1.csv",encoding="cp936")df_test = pd.read_csv(r"C:\Users\ld\Desktop\yc18\test1.csv",encodi.
2022-02-23 15:45:23 754
原创 ARIMA模型的Python实现
from __future__ import print_functionimport pandas as pdimport matplotlib.pyplot as pltimport statsmodels.api as smfrom statsmodels.tsa.arima_model import ARIMA"""ARIMA模型Python实现ARIMA模型基本假设: 1.数据平稳性 2.白噪声同方差 3.数据无周期性参考文献: https:.
2022-02-18 17:36:02 15278 23
转载 多重共线性如何影响显著性?(转载)
怎么“调整”显著性:理解多重共线性 - 知乎多重共线性,是我们学习计量几乎入门时就会接触的一个专业名词。对多重共线性的认识,仅限于在做回归时看一看相关性系数表(而且一般都不会有问题),再了不起的就是算一下VIF。但其实对它并没有一个直观的认识。…https://zhuanlan.zhihu.com/p/360436120...
2022-02-18 09:23:10 960
原创 Xgboost回归四种调参方法及Python简单实现
前言Xgboost对特征工程和数据处理比较友好,相比之下调参成为用好Xgboost重要的一环,本文分别从参数、调参方法、Python实现的维度进行梳理,作为调参思路的记录。本文将关注以下几个问题:1.Xgboost哪些参数需要调参?2.通用的调参方法有哪些 ? 如何实现?Xgboost哪些参数需要调参?下表列出了 xgboost 0.90版本下 xgboost.sklearn 中 XGBBaseModel 的所有输入参数;根据对全部31个参数功能的初步了...
2022-01-25 08:45:14 20872 16
原创 全连接神经网络-------多元回归预测的简单实现
用全连接神经网络做多元回归预测的简单实现#coding:utf-8from keras.models import Sequentialfrom keras.layers import Dense, Dropoutfrom sklearn.preprocessing import MinMaxScalerfrom keras.models import load_modelimport pandas as pdimport matplotlib.pyplot as plt"""实现功能
2021-12-13 11:25:45 5538 2
原创 文本匹配算法综述
文本匹配任务在自然语言处理中是非常重要的基础任务之一,有很多应用场景;如信息检索、问答系统、文本数据去重等。文本匹配算法按有无训练集可分为有监督算法和无监督算法;按算法的发展阶段可分为传统算法和深度算法。常见的算法如下:...
2021-07-09 14:48:15 9163
转载 为什么有人说 Python 的多线程是鸡肋呢?(转载)
作者:DarrenChan陈驰链接:https://www.zhihu.com/question/23474039/answer/269526476来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。在介绍Python中的线程之前,先明确一个问题,Python中的多线程是假的多线程! 为什么这么说,我们先明确一个概念,全局解释器锁(GIL)。Python代码的执行由Python虚拟机(解释器)来控制。Python在设计之初就考虑要在主循环中,同时只有一个线程在执行.
2021-05-10 10:27:28 147
转载 模型融合之STACKING方法
本文参考了Kaggle机器学习之模型融合(stacking)心得stacking是用于模型融合的一个大杀器,其基本思想是将多个模型的结果进行融合来提高预测率。,理论介绍有很多,实际的例子比较少,本文将其实例化,并给出详细的代码来说明具体的stacking过程是如何实现的。stacking理论的话可以用下面的两幅图来形象的展示出来。结合上面的图先做一个初步的情景假设,假设采用5折交叉验证:训练集(Train):训练集是100行,4列(3列特征,1列标签)。测试集(Test):测试集是30行
2021-03-25 16:24:12 10829 3
转载 生成模型和判别模型的区别
生成模型和判别模型的区别,可以结合下图进行理解机器学习的任务是从属性X预测标记Y,即求概率P(Y|X);对于判别式模型来说求得P(Y|X),对未见示例X,根据P(Y|X)可以求得标记Y,即可以直接判别出来,如上图的左边所示,实际是就是直接得到了判别边界,所以传统的、耳熟能详的机器学习算法如线性回归模型、支持向量机SVM等都是判别式模型,这些模型的特点都是输入属性X可以直接得到Y(对于二分类任务来说,实际得到一个score,当score大于threshold时则为正类,否则为反类)~(根本原.
2021-03-24 11:43:41 325
原创 线性回归拟合优度度量
在拟合了Y关于X的线性模型之后,我们不但想知道这种线性关系是否真的存在,还想度量模型对数据的拟合效果。拟合效果可以采用下面的方法之一进行度量,这些方法有很高的关联性。1.Y对X的散点图、Y对Y的散点图 Y与X之间线性关系的强度还可以通过考察Y对X或Y对的散点图和相关系数Cor(X,Y)(Cor(,Y))的值直接度量。散点图上的点离一条直线越近(或Cor(X,Y)/Cor(X,)越接近1、-1),Y与X()之间的线性关系越强。这个方法是不正规的且有主观性,但只需要线性假定。 详...
2021-03-22 13:43:02 3435
原创 多元线性回归之基本假定的验证和处理办法
前言多元线性回归模型统计推断结果的可靠性,建立在一些统计假设的基础上,只有在假设条件满足时,模型输出结果才成立,本文将展开讨论多元线性回归有哪些基本假设、如何检验假设是否成立、以及当基本假设不满足时的处理方案。同时需要说明的是,轻微违背假设并不会对主要的分析结果产生重大的影响,这是最小二乘法的一个特点,但是如果严重违背基本假设就会极大的破坏结果的合理性。一 基本假定(一)误差的假定1、服从正态分布 标准化残差与每个预测变量都不应该相关、与拟合值也不应该相关,此时误差服...
2021-03-19 15:56:07 12481 2
原创 四种检测异常值的常用技术简述
四种检测异常值的常用技术简述在训练机器学习算法或应用统计技术时,错误值或异常值可能是一个严重的问题,它们通常会造成测量误差或异常系统条件的结果,因此不具有描述底层系统的特征。实际上,最佳做法是在进行下一步分析之前,就应该进行异常值去除处理在某些情况下,异常值可以提供有关整个系统中局部异常的信息;因此,检测异常值是一个有价值的过程,因为在这个工程中,可以提供有关数据集的附加信息目前有许多技术可以检测异常值,并且可以自主选择是否从数据集中删除。在这篇博文中,将展示KNIME分析平台中...
2021-03-18 13:50:30 1139
原创 线性回归异常值分析之—高杠杆点、离群点、强影响点
离群点、高杠杆点、强影响点,都是数据观测中常见的异常数据形式,下面分别从概念,检测方法和处理方法三方面来谈论一 概念离群点:残差很大的观测虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可以看到,两条回归线之间相差不大,因此,该红点不是强影响点。同时,该红点并没有离其他自变量的值很远,因此也不是高杠杆点。但是它离回归线很远(残差大),因此该红点是离群点。高杠杆点:x空间中异常的观测虚线和实线分别是包含红点在内和不包含红点在内训练出来的回归模型。可.
2021-03-18 11:30:06 14932 1
原创 特征筛选实践-------过滤法
前言在机器学习数据集中,一个特征如果可以通过另一个或多个特征间接得到,则这个特征的信息可能是冗余的,特征之间的信息冗余不但会使数据集更加臃肿,降低模型效率,也会违背特征独立性的模型基本假设,影响模型的性能;为了让数据集中特征都相互独立,我们需要对数据集中的每个特征分别与其他特征进行相关性检验,剔除冗余特征。相关性检验是对特征之间是否相关以及相关的程度如何所进行的统计检验,根据数据类型的不同,可以将相关性检验分为三种方法:分类数据VS分类数据:卡方检验数值数据VS数值数据:相关系数分.
2021-02-09 11:29:57 3142
原创 机器学习项目之数据清洗
前言数据清洗是机器学习项目中最为琐碎而又繁重的工作之一,下面总结一些经常用到的数据清洗方法与Python实现,以探索能否用更加自动化的手段来简化数据清洗工作。包括:1.缺失值处理2.格式内容清洗3.重复值处理4.不一致数据处理5.错误数据处理6.离群点处理7.高杠杆点处理8.强影响点处理1 缺失值缺失值是最常见的数据问题之一,按缺失比例,我们大致可以将数据的缺失分为两种情况:1)严重缺失 这种情况首先尝试从其他渠道获取缺失的数据;...
2021-02-08 09:39:36 1661
原创 机器学习特征工程之特征选择
机器学习特征工程之特征选择一、为什么要进行特征选择?在机器学习项目中,我们往往不能直接对原始数据进行建模,我们需要对原始数据进行一系列的预处理,得到最合适的数据集来进行建模,特征选择即是一系列预处理中非常重要的一步。那什么是最合适的数据集呢?最合适的数据集,应当在不显著降低预测精度、不影响数据分布、具有稳定、适应性强等特点的基础上,尽量的小,以助力模型达到准确性、鲁...
2021-01-21 12:27:16 917
WEKA软件使用详细教程
2018-03-22
截取字符型时间数据的小时为int时,以下两种方式哪种比较好,为什么
2022-03-04
TA创建的收藏夹 TA关注的收藏夹
TA关注的人