自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 自动特征工程——特征编码Categorical Encoding

Backward Difference Coding反向差分编码用于编码类别变量的向后差对比编码。ce.BackwardDifferenceEncoder(verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True, handle_unknown='value',

2022-05-13 10:02:11 821

原创 自动特征构建工具——featuretools

简介featuretools是一个可以实现单表的转换操作和多表的跨表连接操作的框架。它擅长于将时间和关系数据集转换为机器学习的特征矩阵。特征工程常见的方法分为两种:1、针对单表的transform操作,例如log变换,特征编码等,都是在一张表上进行的;2、groupby聚合操作,一般是跨表进行的,比如groupby min max mean等等。官方文档参考博客知乎知乎多表操作定义实体集实体(entity,多个实体则称为实体集entityset)。实体就是一张表或者一个dataframe,

2022-05-11 16:04:21 1320

原创 聚类算法参数整理

2022-01-04 17:04:04 1085

转载 python 时间序列

数据挖掘模型

2021-05-17 15:23:25 138

原创 python 二分查找

如果输入3要求返回1,那就用bisect_left如果输入3要求返回2,那就用bisect_rightfrom bisect import bisect_lefta = [0, 3, 7, 29, 30]print(bisect_left(a, 4))

2021-05-17 14:32:32 88

原创 数据分箱——等频分箱、等距分箱、卡方分箱、最小熵值分箱

等频分箱区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。无法使用pd.qcut,用Rank_qcut替代 def Discretization_EqualFrequency(bins_number, data: pd.DataFrame): """ 等频分箱。 :param bins_number: 箱子数 :param data:一维 DataFrame, 要分箱的数据 :return: """ DisOn

2021-05-15 19:14:08 5593

原创 深入浅出统计学——笔记(一)1~3章

一、图形信息化1、统计1)通过某种有意义的方式对原始数据提炼,展现观察原始数据无法得出的观点。2)统计的根本在于数据。3)对统计的研究包括:统计数据的来源、计算方法、有效使用方法、得出结论。3)搜集数据的方法:查看现有数据源、做实验、做调查。4)对收集到的数据进行分析,得出统计量。可以计算事件概率,预测发生某些事件的可能性;了解某些结果的可信度。完成数据分析后,下结论,作预测。2、图形1)图形是发现数据隐含模式的一种有效方法,直观体现数据趋势。2)信息与数据的区别:数据:搜集的原始事实和

2021-02-23 17:18:44 1448

原创 设备故障诊断及维护

相同的设备产品在不同的环境、不同的操作条件下,设备寿命也各不相同。设备维护策略响应式维护采用响应式维护,机器将一直用到寿命极限,在出现故障后才进行维修。如果您要维修一个便宜的设备,例如电灯泡,响应式方法可能会比较有意义。但是请思考一下采用一些非常昂贵部件的复杂系统,例如飞机引擎。您无法承受其出现故障的风险,因为维修损坏严重的部件成本非常高昂。而更重要的是,它涉及到安全问题。...

2021-01-26 18:01:50 2051

原创 r2adj——调整r方Adjusted R-Squared

import pandas as pdimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.linear_model import LinearRegressionimport statsmodels.api as smfrom scipy import statsimport matplotl...

2020-12-09 17:31:46 15688 1

原创 python 连接、操作mysql、sqlserver、oracle数据库

python连接mysql:pymysql1、安装导入pymysqlimport pymysql2、连接db = pymysql.connect(host=ip, port=port, database=database_name, user=user_name, password=password)3、查询版本(测试连接)sql = "SELECT VERSION()"4、使用cursor()方法获取操作游标cursor = db.cursor()5、执行sql语句cursor

2020-08-03 10:46:24 545

原创 python加密

geturl + ? +参数eg:url?a=1&b=2取参排序将参数拼成字符串:a=1&b=2,再用MD5将字符串和校验唯一码key拼接,再加密。MD5(a=1&b=2 + key)=sign将参数和sign加到url中。url?参数&signposturl + ?+ sign=…1.将传入的json的body中的内容组成字典,然后将字典的键...

2020-06-10 15:56:48 168

原创 emd预测

import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...

2020-06-10 15:56:13 759 2

原创 将多行多列转成多行一列,即多层索引

group_data_dict = {}for name, group in factor_data.groupby(color[color.columns[0]]): iterable = [group.iloc[:, 0].tolist(), group.columns[1:].tolist()] group_data = pd.DataFrame(group.iloc[:,...

2020-06-10 15:55:50 379

原创 聚类:KMeans、DBSCAN、层次聚类AgglomerativeClustering及聚类评价指标

聚类(无监督学习)标题

2020-06-05 14:55:18 8048 2

原创 python 文件解压

def untar_files(file_dir): files = get_file_name(file_dir) file_names_list = [] new_file_path = '' for My_file_name in files: if My_file_name.find(".tar.gz") != -1: ...

2020-04-28 09:25:42 228

原创 用于清洗从hbase中捞取出来的数据code

""" 用于清洗从hbase中捞取出来的数据 author:tian date: 2020-02-27"""import pandas as pddef get_data(path): data = pd.read_excel(path, names=['glassid_operacode', 'attribute', 'name', 'value'])...

2020-02-27 10:41:18 297

原创 回归模型评价指标

预测值与实际值之间的误差(点对点)SSE和方差MSE均方差RMSE均方根MAE平均绝对误差预测值、实际值与实际值均值之间的误差(点对全)R方SSR(Sum of squares of the regression)预测值与实际值均值之差的平方和SST...

2020-02-25 12:02:17 924

原创 SIMCA的OPLS-DA相关

转自阿趣代谢微信公众号1. 去除离群值后新做的PCA分析还有很多样本离群,这种情况正常吗?正常,因为样本本身并不是独立的关系,存在组间差异和组内差异。2.OPLS-DA中score图t旁边的数字说是权重,是什么的权重?有什么含义?t[1]是针对预测主成分(横坐标)的回归系数权重大小;t[2]是针对正交主成分(纵坐标)的回归系数权重大小。3.做三组之间的OPLS-DA时,3D图有的数据拟合...

2020-02-25 12:00:26 38715 1

原创 去除使用pivot_table后产生的多重索引

参考来源将列中的重复索引删除pro_data.columns = pro_data.columns.droplevel(0)使用reset_index()将行的多重索引去除但是此时name和glass_id仍为索引pro_data = pd.concat([pro_data,pd.DataFrame(data=pro_data.index.tolist(),columns=[p...

2020-02-23 15:52:50 6150

原创 python使用pivot_table长表转宽表报错:No numeric types to aggregate 解决办法

python使用pivot_table长表转宽表报错:No numeric types to aggregate 解决办法首先查看数据的类型再将数据类型强制转换赋值给原数据

2020-02-21 20:10:55 16042

转载 OPLS-DA

转载

2020-02-14 10:55:20 8763

原创 DataFrame常用操作

1、DataFrame切片(1)df [ [ 'a '] ]得到一列列名为a的DataFrame(2)df [ 'a ']得到一列Name为a的Series(3)df.loc[ [1,2], ['a ', 'b '] ]得到第1、2行,a、b列的DataFrame(4)df.iloc[4:5, 1:3]得到第4行,1、2列的DataFrame(5)df.iloc[0,:]与df....

2020-01-10 17:05:46 3875

原创 python时间序列EMD分解预测

经验模态分解经验模态分解的python实现安装包pyhhtgithub地址pip install pyhhtfrom pyhht.emd import EMDfrom pyhht.visualization import plot_imfsemd = EMD(data.RUL[:10000])imfs = emd.decompose()PyEMDgithub地址注:作者将安...

2019-12-31 13:40:07 7004 5

原创 list、tuple、dict、set

list增append末尾插入一个元素insert指定位置,插入元素extend末尾插入多个元素+通过 + 合并多个 listIn[1]: list1 = ['a','b',1,5]In[2]: list1.append('z') In[3]: print(lsit1)Out[3]: ['a','b',1,5,'z']In[1]: li...

2019-12-27 17:20:08 178

原创 python 时间序列ARIMA模型预测

时间序列ARIMA模型平稳性检验与纯随机性检验python时序预测的7种方法经验模态分解EMDARIMA模型安装statsmodelspip install statsmodels建模过程一、时间序列预处理注意:1、白噪声时序也是平稳序列,但是没有分析的价值。2、无论是时序图还是 ACF 图,使用它们作为检验方法时都具有较强的主观性,没有引入客观的统计量。 因此,时序...

2019-12-26 10:41:37 5875 2

原创 Pyod异常检测

线性模型原理1、通过降维,将数据映射到低维特征空间,然后在特征空间不同维度上查看每个数据点跟其它数据的偏差;2、通过降维,将数据映射到低维特征空间,再从低维特征空间映射回原空间,将重构的数据与原有数据做比较,观察重构误差。...

2019-10-14 20:39:26 7223

原创 python获取文件名中的目标字段

提取’TB…'在内的文件名的目标字符串os.path.basename(path)# header=1,从第二行开始读# delim_whitespace=True 指定空格为分隔符data = pd.read_csv(path, header=1, delim_whitespace=True) id_name = os.path.basename(path)[26:]通过spli...

2019-08-27 11:49:26 3654

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除