咚咚咚咚咚咚咚咚锵-CSDN博客

原创自动特征工程——特征编码Categorical Encoding

Backward Difference Coding反向差分编码用于编码类别变量的向后差对比编码。ce.BackwardDifferenceEncoder(verbose=0, cols=None, mapping=None, drop_invariant=False, return_df=True, handle_unknown='value',

2022-05-13 10:02:11 969

原创自动特征构建工具——featuretools

简介featuretools是一个可以实现单表的转换操作和多表的跨表连接操作的框架。它擅长于将时间和关系数据集转换为机器学习的特征矩阵。特征工程常见的方法分为两种：1、针对单表的transform操作，例如log变换，特征编码等，都是在一张表上进行的；2、groupby聚合操作，一般是跨表进行的，比如groupby min max mean等等。官方文档参考博客知乎知乎多表操作定义实体集实体(entity,多个实体则称为实体集entityset)。实体就是一张表或者一个dataframe，

2022-05-11 16:04:21 1633

原创聚类算法参数整理

2022-01-04 17:04:04 1134

转载 python 时间序列

数据挖掘模型

2021-05-17 15:23:25 169

原创 python 二分查找

如果输入3要求返回1，那就用bisect_left如果输入3要求返回2，那就用bisect_rightfrom bisect import bisect_lefta = [0, 3, 7, 29, 30]print(bisect_left(a, 4))

2021-05-17 14:32:32 108

原创数据分箱——等频分箱、等距分箱、卡方分箱、最小熵值分箱

等频分箱区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。无法使用pd.qcut，用Rank_qcut替代 def Discretization_EqualFrequency(bins_number, data: pd.DataFrame): """ 等频分箱。 :param bins_number: 箱子数 :param data:一维 DataFrame, 要分箱的数据 :return: """ DisOn

2021-05-15 19:14:08 6350

原创深入浅出统计学——笔记（一）1~3章

一、图形信息化1、统计1）通过某种有意义的方式对原始数据提炼，展现观察原始数据无法得出的观点。2）统计的根本在于数据。3）对统计的研究包括：统计数据的来源、计算方法、有效使用方法、得出结论。3）搜集数据的方法：查看现有数据源、做实验、做调查。4）对收集到的数据进行分析，得出统计量。可以计算事件概率，预测发生某些事件的可能性；了解某些结果的可信度。完成数据分析后，下结论，作预测。2、图形1）图形是发现数据隐含模式的一种有效方法，直观体现数据趋势。2）信息与数据的区别：数据：搜集的原始事实和

2021-02-23 17:18:44 1542

原创设备故障诊断及维护

相同的设备产品在不同的环境、不同的操作条件下，设备寿命也各不相同。设备维护策略响应式维护采用响应式维护，机器将一直用到寿命极限，在出现故障后才进行维修。如果您要维修一个便宜的设备，例如电灯泡，响应式方法可能会比较有意义。但是请思考一下采用一些非常昂贵部件的复杂系统，例如飞机引擎。您无法承受其出现故障的风险，因为维修损坏严重的部件成本非常高昂。而更重要的是，它涉及到安全问题。...

2021-01-26 18:01:50 2274

原创 r2adj——调整r方Adjusted R-Squared

import pandas as pdimport numpy as npfrom sklearn import datasets, linear_modelfrom sklearn.linear_model import LinearRegressionimport statsmodels.api as smfrom scipy import statsimport matplotl...

2020-12-09 17:31:46 17334 1

原创 python 连接、操作mysql、sqlserver、oracle数据库

python连接mysql：pymysql1、安装导入pymysqlimport pymysql2、连接db = pymysql.connect(host=ip, port=port, database=database_name, user=user_name, password=password)3、查询版本（测试连接）sql = "SELECT VERSION()"4、使用cursor()方法获取操作游标cursor = db.cursor()5、执行sql语句cursor

2020-08-03 10:46:24 625

原创 python加密

geturl + ? +参数eg：url?a=1&b=2取参排序将参数拼成字符串：a=1&b=2，再用MD5将字符串和校验唯一码key拼接，再加密。MD5(a=1&b=2 + key)=sign将参数和sign加到url中。url?参数&signposturl + ？+ sign=…1.将传入的json的body中的内容组成字典，然后将字典的键...

2020-06-10 15:56:48 230

原创 emd预测

import mathimport numpy as np import pylab as plimport matplotlib.pyplot as pltimport scipy.signal as signalfrom scipy import fftpack import scipy.signal as signalfrom scipy import interpolate...

2020-06-10 15:56:13 811 2

原创将多行多列转成多行一列，即多层索引

group_data_dict = {}for name, group in factor_data.groupby(color[color.columns[0]]): iterable = [group.iloc[:, 0].tolist(), group.columns[1:].tolist()] group_data = pd.DataFrame(group.iloc[:,...

2020-06-10 15:55:50 423

原创聚类：KMeans、DBSCAN、层次聚类AgglomerativeClustering及聚类评价指标

聚类（无监督学习）标题

2020-06-05 14:55:18 8366 2

原创 python 文件解压

def untar_files(file_dir): files = get_file_name(file_dir) file_names_list = [] new_file_path = '' for My_file_name in files: if My_file_name.find(".tar.gz") != -1: ...

2020-04-28 09:25:42 255

原创用于清洗从hbase中捞取出来的数据code

""" 用于清洗从hbase中捞取出来的数据 author：tian date: 2020-02-27"""import pandas as pddef get_data(path): data = pd.read_excel(path, names=['glassid_operacode', 'attribute', 'name', 'value'])...

2020-02-27 10:41:18 331

原创回归模型评价指标

预测值与实际值之间的误差（点对点）SSE和方差MSE均方差RMSE均方根MAE平均绝对误差预测值、实际值与实际值均值之间的误差（点对全）R方SSR（Sum of squares of the regression)预测值与实际值均值之差的平方和SST...

2020-02-25 12:02:17 973

原创 SIMCA的OPLS-DA相关

转自阿趣代谢微信公众号1. 去除离群值后新做的PCA分析还有很多样本离群，这种情况正常吗？正常，因为样本本身并不是独立的关系，存在组间差异和组内差异。2.OPLS-DA中score图t旁边的数字说是权重，是什么的权重？有什么含义？t[1]是针对预测主成分（横坐标）的回归系数权重大小；t[2]是针对正交主成分（纵坐标）的回归系数权重大小。3.做三组之间的OPLS-DA时，3D图有的数据拟合...

2020-02-25 12:00:26 42716 2

原创去除使用pivot_table后产生的多重索引

参考来源将列中的重复索引删除pro_data.columns = pro_data.columns.droplevel(0)使用reset_index()将行的多重索引去除但是此时name和glass_id仍为索引pro_data = pd.concat([pro_data,pd.DataFrame(data=pro_data.index.tolist(),columns=[p...

2020-02-23 15:52:50 6377

原创 python使用pivot_table长表转宽表报错：No numeric types to aggregate 解决办法

python使用pivot_table长表转宽表报错：No numeric types to aggregate 解决办法首先查看数据的类型再将数据类型强制转换赋值给原数据

2020-02-21 20:10:55 16216

转载 OPLS-DA

转载

2020-02-14 10:55:20 9100

原创 DataFrame常用操作

1、DataFrame切片（1）df [ [ 'a '] ]得到一列列名为a的DataFrame（2）df [ 'a ']得到一列Name为a的Series（3）df.loc[ [1,2], ['a ', 'b '] ]得到第1、2行，a、b列的DataFrame（4）df.iloc[4:5, 1:3]得到第4行，1、2列的DataFrame（5）df.iloc[0,:]与df....

2020-01-10 17:05:46 3953

原创 python时间序列EMD分解预测

经验模态分解经验模态分解的python实现安装包pyhhtgithub地址pip install pyhhtfrom pyhht.emd import EMDfrom pyhht.visualization import plot_imfsemd = EMD(data.RUL[:10000])imfs = emd.decompose()PyEMDgithub地址注：作者将安...

2019-12-31 13:40:07 7129 5

原创 list、tuple、dict、set

list增append末尾插入一个元素insert指定位置，插入元素extend末尾插入多个元素+通过 + 合并多个 listIn[1]: list1 = ['a','b',1,5]In[2]: list1.append('z') In[3]: print(lsit1)Out[3]: ['a','b',1,5,'z']In[1]: li...

2019-12-27 17:20:08 217

原创 python 时间序列ARIMA模型预测

时间序列ARIMA模型平稳性检验与纯随机性检验python时序预测的7种方法经验模态分解EMDARIMA模型安装statsmodelspip install statsmodels建模过程一、时间序列预处理注意：1、白噪声时序也是平稳序列，但是没有分析的价值。2、无论是时序图还是 ACF 图，使用它们作为检验方法时都具有较强的主观性，没有引入客观的统计量。因此，时序...

2019-12-26 10:41:37 6039 2

原创 Pyod异常检测

线性模型原理1、通过降维，将数据映射到低维特征空间，然后在特征空间不同维度上查看每个数据点跟其它数据的偏差；2、通过降维，将数据映射到低维特征空间，再从低维特征空间映射回原空间，将重构的数据与原有数据做比较，观察重构误差。...

2019-10-14 20:39:26 7724

原创 python获取文件名中的目标字段

提取’TB…'在内的文件名的目标字符串os.path.basename(path)# header=1，从第二行开始读# delim_whitespace=True 指定空格为分隔符data = pd.read_csv(path, header=1, delim_whitespace=True) id_name = os.path.basename(path)[26:]通过spli...

2019-08-27 11:49:26 3823

未央的博客