- 博客(62)
- 收藏
- 关注
原创 时间索引按照周进行分组循环数据
dev_df.index = pd.DatetimeIndex(dev_df.index)from pandas import Grouperdev_df['index'] = dev_df.indexc = dev_df.groupby(Grouper(key='index',freq="W"))for w_date,w_dev_df in c:
2020-09-03 11:09:31
429
原创 predict(),predict_proba(),decision_function()
# 返回预测标签、print(clf.predict(x_test))# 返回预测属于某标签的概率print(clf.predict_proba(x_test))#返回样本到分隔超平面的有符号距离来度量预测结果的置信度clf.decision_function具体参考链接:https://blog.csdn.net/cxx654/article/details/106727812?utm_medium=distribute.pc_relevant.none-task-blog-.
2020-07-16 17:37:43
745
原创 线程池,进程池,执行cup密集程序,但由于锁是存在并没节约了时间
####线程池执行异常识别start2 = time.time()abnormal_res = pd.DataFrame(index=df.index, columns=df.columns.tolist())print('*****',len(df.index))with ThreadPoolExecutor(150) as executor: for i in df.inde...
2020-04-30 17:04:54
223
原创 datafarme中批量替换某些值为空
##测点中如下数据为无效点:Null,65535,-1234.56,-0.0devData = devData.replace([None,-1234.56, -0.0, 65535], np.NaN)
2020-04-20 17:24:27
490
原创 只要测点名中含有Min或者Last的测点并重命名
#只要测点名中含有Min或者Last的测点并重命名b = pd.Series(devData.columns)d = b.str.contains('Min|Last')f = b[d].str.split('_', expand=True)[0].tolist()name_new = dict(zip(b[d], f))devData.rename(columns=name_new,...
2020-04-20 16:24:42
210
原创 如何用numpy,pandas处理数据大的文件,减轻内存压力
方法一:pd.read_csv()中有个参数chunksize用来块的方式读取数据,例如:将chunksize指定为每次100万行,将大数据集分成许多小块通过迭代每个块,在将每个块添加到列表之前,我使用函数chunk_preprocessing执行数据过滤/预处理。最后,我将列表连接到一个最终的dataframe中,以适应本地内存# read the large csv file wi...
2020-04-08 17:15:52
611
原创 如何判断数据分布为正太分布
from scipy import statsimport pandas as pdimport numpy as npimport matplotlib.pylab as plt# scipy包是一个高级的科学计算库,它和Numpy联系很密切,Scipy一般都是操控Numpy数组来进行科学计算data = [87,77,92,68,80,78,84,77,81,80,80,77,9...
2020-04-03 16:15:12
932
原创 获取数据的密度分布图
max_err_data = pointData[pointData>max_value_point]fig = plt.figure(figsize=(10, 6))ax1 = fig.add_subplot(2, 1, 1)#密度图max_select_data.plot(kind='kde', grid=True, style='-k', title='NB001_max_...
2020-04-01 14:21:05
1402
原创 极差异常点检测
##极差异常点检测def z_score(self, df_t, var_1, threshold): median1 = df_t[var_1].median() mad = (df_t[var_1] - median1).abs().median() zscore = ((df_t[var_1] - median1) * 0.6475 / mad).abs()...
2020-03-25 13:37:53
439
原创 根据数据类型选择特征 select_dtypes
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.select_dtypes.htmldf = pd.DataFrame({'a': [1, 2] * 3,... 'b': [True, False] * 3,... ...
2020-03-25 10:21:04
2325
原创 使用zip,对dataframe列名重命名
name_new = dict(zip(var_1, ['RT101_Avg']))self.df.rename(columns=name_new, inplace=True)
2020-03-25 10:10:49
294
原创 求列表中两两为差
# list(itertools.permutations([1, 2, 3, 4], 2))# #[(1, 2), (1, 3), (1, 4), (2, 1), (2, 3), (2, 4), (3, 1), (3, 2), (3, 4), (4, 1), (4, 2), (4, 3)]## # 无序# print(list(itertools.combinations([1, 2,...
2019-07-16 11:19:14
2846
1
原创 python 找极小值
#寻找局部最小值--找极小值#looking_for_local_min(counter_dict, line[0], 0)# counter_dict-----{1: 0, 2: 0, 3: 0,,, : 0} 其中:line[0] = p=keydef looking_for_local_min(count_list, line, direction): """ :p...
2019-07-02 13:39:23
2257
原创 获取dataframe中某列中某几个值对应的index索引
例如:获取num 列中,值在num_with_fault中的值对应的indexnum_with_fault=[1,2,4]df['num'] =[3,4,2,55,6]index_with_fault = df[df.loc[:,'num'].isin(num_with_fault)].index则:index_with_fault = [1,2]...
2019-06-27 16:47:23
26451
3
转载 拟合优度R2
决定系数(拟合优度)的相关概念拟合优度定义近期做多元回归分析拟合工作中,在进行线性拟合时,决定系数(又称拟合优度)上不去(卡在0.3左右)一直是困扰工作进度的一个大问题。在经过多元高阶多项式和指数多项式等方法尝试后,虽有一定提高(达到0.4左右)但仍无法达到满意程度。因此开始尝试非常规的智能算法拟合。经尝试,用BP神经网络进行拟合发现拟合优度一下涨至0.7,而经改进,采用双隐含层BP神经...
2019-05-07 18:15:08
40139
5
原创 python 如何获取一年多少天,如何获取一年中某个月多少天
方法一:(比较聪明方法)#某年天数year_days = 366 if calendar.isleap(int(str(year_num))) else 365#某年某一个月天数month_days = calendar.monthrange(int(str(year_num)), int(str(month_num))[1]方法二:(笨方法)#获取某年一共多少天def ye...
2019-04-29 17:48:58
7849
原创 获取列表中连续数字序列 python
from itertools import groupby#获取列表中连续数字序列lst = [234,55,233,1, 2, 3,4, 5, 6, 7, 8, 11, 12, 13, 19,21344,4646,22,34,55] # 连续数字index_with_fault = []fun = lambda x: x[1]-x[0]for k, g in groupby(e...
2019-03-21 16:32:10
3190
原创 用file.wrte(data),写数据注意事项
用file.wrte(data),写数据,必须将data转化成字符串形式如果是字典或者json数据需要进行相应的转化,变成字符串才可以存入可以存入二进制,存入的必须是字符串,和进制什么无关...
2018-03-31 20:27:50
305
原创 Python 的 re 模块,正则匹配规则
Python 的 re 模块在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是,正则表达式使用 对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 r 前缀,示例:r'chuanzhiboke\t\.\tpython're 模块的一般使用步骤如下:使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象通过 Pat...
2018-03-31 16:20:06
1752
原创 对Django模型中的objects 的理解
object======是模型属性---用于模型对象和数据库交互 object = Manager() 是管理器类型的对象 是Model和数据库进行查询的接口 可以自定义管理器对象 -----books = models.Manager() objects : 管理器对象是Manager类型的对象,定义在from d
2018-01-29 14:33:53
5595
原创 Django中更换原始的数据库为mysql
Django默认为sqllite ,太小,适合手机端系统web项目首选的数据库是mysql数据库项目同名文件夹中的__init__.py 中 import pymysql pymysql.install_as_MySQLdb()setting.py中进行配置 DATABASES={ 'default': { 'ENGINE':
2018-01-29 14:12:51
691
原创 Django ---关于模型中 ORM
一、ORM对象-关系映射在MVC/MVT设计模式中的 model模块中主要实现模型对象到关系数据库数据的映射 例如:模型类BookInfo --映射到--> 数据表bookinfo一个模型对应数据表中的一行记录 反之亦然优点:只需要面向对象编程,不需要面向数据库编写代码实现了数据模型与数据库的解耦,屏蔽了不同数据库操作之间差距
2018-01-29 11:32:29
379
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅