自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 设定折线图绘制

设定样式的折线图

2022-07-08 17:31:12 398 1

原创 Boruta原理及Python-BorutaPy的API应用

一、基本介绍Boruta 算法是一种特征筛选方法,其核心是基于两个思想:shadow features和binomial distribution。该算法可以自动在数据集上执行特征选择。作为 R 的一个包而诞生。目前 Python 的 Boruta 版本是 BorutaPy。二、基本原理2.1 算法原理2.1.1 算法步骤创建阴影特征 (shadow feature) 。从X开始,对每个真实特征R,随机打乱顺序,这些被打乱顺序的原始特征称为阴影特征(shadow features)。此时,阴

2022-05-12 16:04:59 7430 2

原创 tsfresh基本原理及使用

一、引言1、基本介绍tsfresh 用于从时间序列或其他序列数据中进行系统特征工程。这些数据的共同点是它们按自变量排序。最常见的自变量是时间(时间序列)。比如,工业界毫秒级制程数据,不同用户连续交易数据等等。tsfresh一方面提供了大量衍生规则(统计指标计算的方法)供使用者按照自身需求单独调用;另一方面,提供了自动提取大量统计指标特征并自动进行筛选的方法。tsfresh仅特征工程模块相关功能,用于后续机器学习或深度学习算法的模型训练,不提供模型。2、使用二、衍生规则tsfresh.featur

2022-05-11 13:47:36 3097

原创 下载数据-提供数据流

def download_excel(project_id: str, info_save_url: str, node_chain: str): ''' 因子集下载 ''' node_chain = node_chain.split(",") file_name = "project_{0}_{1}_factor.csv".format(project_id, str(node_chain[-1])) x, y, label_data, time_data

2021-10-29 17:41:23 143

原创 读写大数据量CSV文件

import csvdef bigdata_csv(openpath,savepath): f = open(openpath) csv_read = csv.reader(f) ''' csv.reader(f)返回一个迭代器。迭代器的好处就是可以不用一次性将大量的数据都读进来,而是如果你需要一条, 就给迭代器一个命令让它输出一条。关于迭代器的优点读者可以另行学习。 ''' i = 0 for line in csv_read:.

2021-06-10 10:32:13 879

原创 python更换证件照底色

'''pip install removebg'''import osfrom PIL import Imagefrom removebg import RemoveBgdef image_matting(old_image_path, new_image_path, color,api_key ='NWjLpDPauKVoxUQLYSjFxhnh'): # removebg 官网(注册账号地址):https://www.remove.bg/zh # API KEY获取官方网站:ht

2021-01-07 17:10:26 325 1

原创 python将图片批量保存至word文档中

def picture_docx(path_picture,path_docx): # 要插入的图片所在的文件夹 #fold = 'C:\\Users\\Administrator\\Desktop\\tu' fold = path_picture # os.walk(fold)没有返回值,所以这么做显然没有结果,是错的 # pics=list(os.walk(fold)[3]) # # pics.pop() # print(pics) #

2020-11-18 10:53:12 3760

原创 数据处理小技巧——重名区分,获取重复行号

1.重名加后缀区分cols = copy.deepcopy(timesort_data.loc[:,'glass_id'])for dup in cols[cols.duplicated()].unique(): cols[cols[cols == dup].index.values.tolist()] = [dup + '_' + str(i) if i != 0 else dup for i in

2020-09-09 15:55:07 411

原创 归一化与标准化的区别

参考:https://www.jianshu.com/p/95a8f035c86c

2020-07-31 16:35:48 146

原创 python等值线图绘制,计算合适的等值线间距

def get_gap(gap): gap = str(gap) gap_len = len(gap) gap_list = list(map(int, gap)) top_value = int(gap_list[0]) gap_bottom = top_value * (10 ** (gap_len - 1)) gap_mid = gap_bo...

2019-12-20 15:23:08 2314 1

原创 时间序列各步骤方法汇总

差分diff_12 = ts_log.diff(12)平滑法https://editor.csdn.net/md/?articleId=103409165对数变换减小数据的振动幅度,使其线性规律更加明显ts_log = np.log(ts)分解from statsmodels.tsa.seasonal import seasonal_decomposedecompositio...

2019-12-19 11:02:06 1347

原创 EMD分解及预测

import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...

2019-12-19 10:59:55 2410

原创 时间序列分析建模及相关算法的python实现

纯随机性检验纯随机序列: 平稳序列值之间没有任何相关性的序称为纯随机序列,这意味着该序列过去的行为对将来的发展没有丝毫影响. 从统计分析的角度而言, 纯随机序列没有任何分析价值. 纯随机序列也称为白噪声序列.纯随机性检验,又叫白噪声检验,一般是构造检验统计量来检验。常用的检验统计量有Q统计量、LB统计量,由样本各延迟期数的自相关系数,可以计算出检验统计量,然后计算对应的p值,如果p值大于显著性...

2019-12-19 10:59:29 1923

原创 反距离权重IDW插值法

arcpy.Idw_3d

2019-12-19 10:07:37 1105

原创 plt绘图—取消坐标轴,边框处理,白边处理,颜色图谱

调整图片像素或大小plt.figure(dpi= 150)plt.figure(figsize=(16,4))取消坐标轴ax = plt.subplot()ax.contourf(grid_x_plot, grid_y_plot, f_plot, levels = levels, cmap=cmap2)ax.set_xticks([])ax.set_yticks([])不显示图...

2019-12-19 10:03:31 7234 3

原创 时间序列分析方法概述

移动平均法指数平滑法AR模型MA模型ARMA模型模型识别参考文献:https://zhuanlan.zhihu.com/p/35128342https://blog.csdn.net/zjlamp/article/details/81606222https://www.cnblogs.com/foley/p/5582358.html...

2019-12-06 09:50:08 1191

原创 集成学习

Bagging随机森林BoostingAdaboost:普通boostingGBDT:拟合误差xgboost:目标函数加入正则项catboostLightgbm

2019-12-02 14:55:30 99

原创 决策树-集成学习(bagging,boosting)-经典算法(RF,iForest,GBDT,XGboost,Adaboost)

决策树构建步骤1、计算当前决策节点的混乱程度。2、列举决策属性,分别计算按每一个决策属性决策的情况下熵值的大小。3、计算信息增益:Entropy(决策之前)-Entropy(决策之后),选择信息增益最大的属性作为优先决策属性。4、递归循环上述步骤,直到决策树达到停止生长的条件为止,即每个叶子节点均只有一类数据。集成学习总的来说可以分为如下两种:1.基于Bagging, 代表算法:随...

2019-12-02 14:45:08 807

原创 置信椭圆原理以及椭圆图形绘制

置信椭圆

2019-11-29 14:12:35 5552 1

原创 list差集

list差集x = [item for item in new_categories if item not in categories]

2019-11-01 14:46:38 128

原创 Python正态性检验

https://blog.csdn.net/cyan_soul/article/details/81236124from scipy import statsstats.kstest(df['value'], 'norm', (u, std))# 结果返回两个值:statistic → D值,pvalue → P值# p值大于0.05,很可能为正态分布...

2019-09-17 18:58:22 1966

原创 python抽样方法概述

一、简单随机抽样1、pandas随机抽样DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)局限: 对于多类样本不能很好的进行抽样。解决:对于不平衡数据,使用imblearn库中的函数完成随机过采样,随机欠采样。注:针对不平衡的数据,要实现欠抽样时,...

2019-09-17 14:29:20 783

原创 imblearn算法详解及实例

过采样(Over-sampling)1、RandomOverSampler从少数类的样本中进行随机采样来增加新的样本from imblearn.over_sampling import RandomOverSamplerros = RandomOverSampler(sampling_strategy={0: 900,2:200,1:300 },random_state=0)X_resa...

2019-09-17 14:22:26 14644 14

原创 python抽样方法详解及实现

随机抽样—总体个数较少每个抽样单元被抽中的概率相同,并且可以重现。随机抽样常常用于总体个数较少时,它的主要特征是从总体中逐个抽取。1、抽签法2、随机数法:随机数表、随机数骰子或计算机产生的随机数。分层抽样——总体存在差异且对结果有影响分层抽样是指在抽样时,将总体分成互不相交 [2] 的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本的方法。层内...

2019-09-06 10:43:10 25891 4

原创 catboost原理、参数详解及python实例

catboost 简介优点:1)它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我在这里介绍这个算法最大的motivtion,有了catboost,再也不用手动处理类别型特征了...

2019-09-02 10:23:33 11458 2

原创 Lightgbm原理、参数详解及python实例

GDBT1)对所有特征都按照特征的数值进行预排序。2)在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。3)找到一个特征的分割点后,将数据分裂成左右子节点。两个方面可改进GDBT降低训练集的规模。降低特征维度。LightGBM重点:对模型训练时样本点的采样优化和特征维度的优化原理1.单边梯度采样算法(Grandient-based One-Side S...

2019-09-02 10:14:12 19069 1

原创 DataFrame

分割某一列data['HEADER_BEGIN'].str.split(',', expand=True)分组fill_data_x=[]for key,group in all_data_x.groupby('Elapsed'): group['curr_p'] = group['curr_p'].fillna(group['curr_p'].mean()) group...

2019-08-26 20:30:25 119

原创 DataFrame索引相关操作

修改索引名称(1)a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]})(2)a.columns = ['a','b','c'](3)a.rename(index={'A':'a', 'B':'b', 'C':'c},columns={'A':'a', 'B':'b', 'C':'c'}, inplace = True)重设In...

2019-08-26 20:29:10 273

原创 python矩阵相乘

矩阵相乘np.dot(num_data.values,feature_importances)

2019-08-26 20:16:38 264

原创 python字典

字典排序#字典按照key排序train_x_dictnew={}for ids in sorted(train_x_dict): print((ids, train_x_dict[ids])) train_x_dictnew.update({ids:train_x_dict[ids]})

2019-08-26 19:53:14 99

原创 python批量获取某文件夹下所有文件

Python批量获取某文件夹下所有文件path_x_str = os.listdir('G:\\testdata\\CSOT\\train_x\\CVDLog_train')path_x_list = [os.path.join('G:\\testdata\\CSOT\\train_x\\CVDLog_train',x) for x in path_x_str]for i in range...

2019-08-26 19:47:07 569

模型自动更新与预测.ppt

管道,实现链式评估器,可更新模型

2019-12-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除