Lee魅儿-CSDN博客

原创时间索引按照周进行分组循环数据

dev_df.index = pd.DatetimeIndex(dev_df.index)from pandas import Grouperdev_df['index'] = dev_df.indexc = dev_df.groupby(Grouper(key='index',freq="W"))for w_date,w_dev_df in c:

2020-09-03 11:09:31 429

原创 predict(),predict_proba(),decision_function（）

# 返回预测标签、print(clf.predict(x_test))# 返回预测属于某标签的概率print(clf.predict_proba(x_test))#返回样本到分隔超平面的有符号距离来度量预测结果的置信度clf.decision_function具体参考链接：https://blog.csdn.net/cxx654/article/details/106727812?utm_medium=distribute.pc_relevant.none-task-blog-.

2020-07-16 17:37:43 745

原创线程池，进程池，执行cup密集程序，但由于锁是存在并没节约了时间

####线程池执行异常识别start2 = time.time()abnormal_res = pd.DataFrame(index=df.index, columns=df.columns.tolist())print('*****',len(df.index))with ThreadPoolExecutor(150) as executor: for i in df.inde...

2020-04-30 17:04:54 223

原创 datafarme中批量替换某些值为空

##测点中如下数据为无效点:Null,65535,-1234.56,-0.0devData = devData.replace([None,-1234.56, -0.0, 65535], np.NaN)

2020-04-20 17:24:27 490

原创只要测点名中含有Min或者Last的测点并重命名

#只要测点名中含有Min或者Last的测点并重命名b = pd.Series(devData.columns)d = b.str.contains('Min|Last')f = b[d].str.split('_', expand=True)[0].tolist()name_new = dict(zip(b[d], f))devData.rename(columns=name_new,...

2020-04-20 16:24:42 210

原创如何用numpy,pandas处理数据大的文件，减轻内存压力

方法一：pd.read_csv()中有个参数chunksize用来块的方式读取数据，例如：将chunksize指定为每次100万行，将大数据集分成许多小块通过迭代每个块，在将每个块添加到列表之前，我使用函数chunk_preprocessing执行数据过滤/预处理。最后，我将列表连接到一个最终的dataframe中，以适应本地内存# read the large csv file wi...

2020-04-08 17:15:52 611

原创如何判断数据分布为正太分布

from scipy import statsimport pandas as pdimport numpy as npimport matplotlib.pylab as plt# scipy包是一个高级的科学计算库，它和Numpy联系很密切，Scipy一般都是操控Numpy数组来进行科学计算data = [87,77,92,68,80,78,84,77,81,80,80,77,9...

2020-04-03 16:15:12 932

原创获取数据的密度分布图

max_err_data = pointData[pointData>max_value_point]fig = plt.figure(figsize=(10, 6))ax1 = fig.add_subplot(2, 1, 1)#密度图max_select_data.plot(kind='kde', grid=True, style='-k', title='NB001_max_...

2020-04-01 14:21:05 1402

原创极差异常点检测

##极差异常点检测def z_score(self, df_t, var_1, threshold): median1 = df_t[var_1].median() mad = (df_t[var_1] - median1).abs().median() zscore = ((df_t[var_1] - median1) * 0.6475 / mad).abs()...

2020-03-25 13:37:53 439

原创根据数据类型选择特征 select_dtypes

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.htmldf = pd.DataFrame({'a': [1, 2] * 3,... 'b': [True, False] * 3,... ...

2020-03-25 10:21:04 2325

原创使用zip,对dataframe列名重命名

name_new = dict(zip(var_1, ['RT101_Avg']))self.df.rename(columns=name_new, inplace=True)

2020-03-25 10:10:49 294

原创求列表中两两为差

# list(itertools.permutations([1, 2, 3, 4], 2))# #[(1, 2), (1, 3), (1, 4), (2, 1), (2, 3), (2, 4), (3, 1), (3, 2), (3, 4), (4, 1), (4, 2), (4, 3)]## # 无序# print(list(itertools.combinations([1, 2,...

2019-07-16 11:19:14 2846 1

原创 python 找极小值

#寻找局部最小值--找极小值#looking_for_local_min(counter_dict, line[0], 0)# counter_dict-----{1: 0, 2: 0, 3: 0,,, : 0} 其中:line[0] = p=keydef looking_for_local_min(count_list, line, direction): """ :p...

2019-07-02 13:39:23 2257

原创获取dataframe中某列中某几个值对应的index索引

例如:获取num 列中,值在num_with_fault中的值对应的indexnum_with_fault=[1,2,4]df['num'] =[3,4,2,55,6]index_with_fault = df[df.loc[:,'num'].isin(num_with_fault)].index则:index_with_fault = [1,2]...

2019-06-27 16:47:23 26451 3

转载拟合优度R2

决定系数(拟合优度)的相关概念拟合优度定义近期做多元回归分析拟合工作中，在进行线性拟合时，决定系数（又称拟合优度）上不去（卡在0.3左右）一直是困扰工作进度的一个大问题。在经过多元高阶多项式和指数多项式等方法尝试后，虽有一定提高（达到0.4左右）但仍无法达到满意程度。因此开始尝试非常规的智能算法拟合。经尝试，用BP神经网络进行拟合发现拟合优度一下涨至0.7，而经改进，采用双隐含层BP神经...

2019-05-07 18:15:08 40139 5

原创 python 如何获取一年多少天,如何获取一年中某个月多少天

方法一:(比较聪明方法)#某年天数year_days = 366 if calendar.isleap(int(str(year_num))) else 365#某年某一个月天数month_days = calendar.monthrange(int(str(year_num)), int(str(month_num))[1]方法二:(笨方法)#获取某年一共多少天def ye...

2019-04-29 17:48:58 7849

原创获取列表中连续数字序列 python

from itertools import groupby#获取列表中连续数字序列lst = [234,55,233,1, 2, 3,4, 5, 6, 7, 8, 11, 12, 13, 19,21344,4646,22,34,55] # 连续数字index_with_fault = []fun = lambda x: x[1]-x[0]for k, g in groupby(e...

2019-03-21 16:32:10 3190

原创用file.wrte(data),写数据注意事项

用file.wrte(data),写数据，必须将data转化成字符串形式如果是字典或者json数据需要进行相应的转化，变成字符串才可以存入可以存入二进制，存入的必须是字符串，和进制什么无关...

2018-03-31 20:27:50 305

原创 Python 的 re 模块，正则匹配规则

Python 的 re 模块在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是，正则表达式使用对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀，示例：r'chuanzhiboke\t\.\tpython're 模块的一般使用步骤如下：使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象通过 Pat...

2018-03-31 16:20:06 1752

原创对Django模型中的objects 的理解

object======是模型属性---用于模型对象和数据库交互 object = Manager（）是管理器类型的对象是Model和数据库进行查询的接口可以自定义管理器对象 -----books = models.Manager() objects : 管理器对象是Manager类型的对象，定义在from d

2018-01-29 14:33:53 5595

原创 Django中更换原始的数据库为mysql

Django默认为sqllite ，太小，适合手机端系统web项目首选的数据库是mysql数据库项目同名文件夹中的__init__.py 中 import pymysql pymysql.install_as_MySQLdb()setting.py中进行配置 DATABASES={ 'default': { 'ENGINE':

2018-01-29 14:12:51 691

原创 Django ---关于模型中 ORM

一、ORM对象-关系映射在MVC/MVT设计模式中的 model模块中主要实现模型对象到关系数据库数据的映射例如：模型类BookInfo --映射到--> 数据表bookinfo一个模型对应数据表中的一行记录反之亦然优点:只需要面向对象编程，不需要面向数据库编写代码实现了数据模型与数据库的解耦，屏蔽了不同数据库操作之间差距

2018-01-29 11:32:29 379

qq_41598736的博客