butterfly1107-CSDN博客

原创杀进程简洁方法

ps ux|grep monitor_job|grep -v grep|awk '{print $2}' |xargs kill -9

2024-12-31 10:15:41 95

原创返回码的理解

sh abc.sh 的时候控制台什么也没有返回0或者1，一直觉得有问题，后面突然想返回码可能不是这么用的。这里有个要求：abc.sh执行成功返回0，执行失败情况返回1。需要 echo $?

2024-11-13 11:16:43 116

1、base64编码功能：从指定的文件file中读取数据，编码为base64的字符串然后输出；功能：将字符串string+换行编码为base64的字符串然后输出；功能：将字符串string编码为base64的字符串然后输出；2、base64解码功能：从指定的文件file中读取已经过base64编码的数据，然后进行解码，并输出解码后的字符串；功能：对base64编码的字符串str和空行进行解码，然后将解码后的字符串输出；

2024-10-16 13:57:37 250

原创 shell循环脚本字符串列表的使用

2024-10-12 15:17:49 98

原创 pandas 删除去重等技巧

1、该列如果为空用其他列填充：df_mrg.ix[df_mrg.contact.isnull(),'contact'] = df_mrg['contact2']2、去重data_np = data.drop_duplicates() ,data所有列完全相同才会删除data_np = data.drop_duplicates(['a','b'])去重机制，去重是保留第一条记录还是最后一条记录...

2024-10-12 14:57:41 173 1

原创 linux 大小写转换

【代码】linux 大小写转换。

2024-10-12 09:57:46 325

原创单因子分析及其可视化

参考：https://blog.csdn.net/weixin_41761857/article/details/82026170数值型变量def NumVarTracker(df, col, target, filepath,truncation):# ‘‘‘# :param df: the dataset containing numerical independ...

2019-08-07 15:09:05 766

原创将省份转为区域

#将省份转为区域lcd_org_2.ix[lcd_org_2.省份.str.contains("山东|江苏|安徽|浙江|福建|江西|上海",na=False),'区域_2'] = "华东" lcd_org_2.ix[lcd_org_2.省份.str.contains("广东|广西|海南",na=False),'区域_2'] = "华南" lcd_org_2.ix[lcd_org_2.省...

2019-08-07 13:43:08 631

原创如何获取每个月的天数

为得到每个月的天数，实际上就是每个月最后一天的日期，最终生成如下表格：df = pd.DataFrame(pd.date_range(start='3/1/2017', periods=29, freq=pd.offsets.MonthEnd(1)),columns=['last_day'])df['data_mth'] = df['last_day'].dt.year*100...

2019-07-26 15:52:28 1926

原创自定义各种分位数

org_bill_l12m.curr_km.quantile(0.05)org_bill_l12m.curr_km.quantile(0.1)org_bill_l12m.curr_km.quantile(0.25)

2019-07-23 14:22:10 679

原创类如何传入参数

类是通过 __init__ 方法接受参数。调用下面的类，cl = classifier(getwords)，getfeatures=getwords,这里getfeatures是函数class classifier: def __init__(self,getfeatures,filename=None): # Counts of feature/categ...

2019-07-04 18:19:33 4058

原创《集体智慧编程》代码纠错第四章 nn.py

在运行nn.py的时候一直报错，'dict_keys' object does not support indexing，后来debug了下，发现是hiddenids的数据格式问题，应该是list,所以找到了函数getallhiddenids(),这个函数的返回是一个dict,在调用的时候应该加上list. from math import tanh#from py...

2019-07-04 14:42:52 326

转载 dataframe 按条件筛选行

使用Pandas对数据进行筛选和排序转自：http://bluewhale.cc/2016-08-06/use-pandas-filter-and-sort.html 筛选和排序是Excel中使用频率最多的功能，通过这个功能可以很方便的对数据表中的数据使用指定的条件进行筛选和计算，以获得需要的结果。在Pandas中通过.sort和.loc函数也可以实现这两个功能。.sor...

2018-09-18 14:54:39 223327 3

原创 rank 函数

#排第一位的常跑路线上行驶的总里程#排第二位的常跑路线上行驶的总里程#排第三位的常跑路线上行驶的总里程sql = """SELECT orgCode,count(cnt) as cnt,addr,distancefrom (SELECT orgCode,(CASE when CONCAT(startCity,endCity)>=CONCAT(endCity,startCit...

2018-09-18 14:07:17 393

原创 json输出到excel中

import pandas as pdimport numpy as npimport utilityimport jsonfrom pandas.io.json import json_normalizesql = """SELECT d.F_org_code,d.F_org_name,c.F_contact_info FROM((SELECT a.*,b.F_customer...

2018-08-08 17:23:06 964

原创计算3列的最大值

max_his=df[['max_od_days_wld_his','max_od_days_lulut_his','max_od_days_lcd_his','max_od_days_dlb_his']]df['fin_max_od_days_his'] = max_his.apply(lambda x: x.max(), axis=1)

2018-05-14 18:08:53 333

原创将多个dataframe写入同一个workbook中的不同sheet

writer = pd.ExcelWriter('group_freq.xlsx')#etc逾期账单占比 od_bill_cnt_ratio_grp = pd.crosstab(df.od_bill_cnt_ratio_grp,bigtable_11.bad_flag, margins=True) od_bill_cnt_ratio_grp.to_excel(write...

2018-05-10 11:41:52 2225

原创统计一个字段所有取值的频次

bigtable_3['od_bill_cnt_ratio_grp'].value_counts()

2018-05-08 17:17:02 654

原创按照某一列值排序

outfile.sort_values(by='old_score',inplace=True,ascending=False)

2018-05-08 05:32:26 304

原创对列名重新命名

bigtable_3.rename(columns={'score_sum':'old_score','score_grp':'old_score_grp'}, inplace=True)

2018-05-08 05:23:03 1678

原创 pd.read_excel(path)报错OSERROR时的处理方式

f1 = open(u"D:\\work\\数据需求\\大宽表\\big_table_20180507.xlsx",'rb')bigtable = pd.read_excel(f1)

2018-05-08 05:13:11 3035

原创如何将Series转为DataFrame

发现数据类型DataFrame，如果只有一列的数据类型就自动转为Series，很多时候需要将Series转为DataFramedf=s.to_frame()这时df就是DataFrame了

2018-05-07 17:22:47 52675 2

原创由Unicode编码转为utf-8

# test.txt是以Unicode编码的文件，不限于txt格式f = open('D:\\test.txt','r',encoding='utf-16',errors='ignore')for line in f.readlines(): with open('abf.txt', 'ab') as out: line = line.encode('utf-8') ...

2018-05-02 14:03:34 698

原创日期格式比较

某一列是日期格式datetime,将这一列和某一个日期比较将日期格式转为str之后再比较：R01_credit_mcht.ix[R01_credit_mcht['first_bill_date'].astype(str)>\ utility.datetime_month_lag(-2)[4].format('YYYY-MM-DD'),'use_end_flag...

2018-04-28 10:16:07 577

原创 dataframe按照主键排序

lc_his = lc_his.sort_values(by = ['orgcode','month'],axis = 0,ascending = True)

2018-04-27 13:38:08 1140

原创判断dataframe、list是否为空

1、判断dataframe是否为空如果df为空，则 df.empty 返回 True，反之返回False。2、判断list是否为空if len(all)=0 为空，否则为非空

2018-04-26 16:27:42 66229 3

原创定义空dataframe

lc_his = pd.DataFrame(columns=['distance_km', 'imei_num', 'month'])

2018-04-26 11:42:20 5349

原创在循环中动态生成变量

while (month_lag >= '201601'): locals()["lc_"+month_lag] = get_month_lc(-i) month_lag = utility.datetime_month_lag(-i)[3] i=i+1 print('The iter_lc is:', month_lag)通过locals()["lc_"+month_lag...

2018-04-26 11:41:39 1959

原创第三方时间处理库arrow

安装方法pip install arrow def datetime_month_lag(lag_n,datetime=arrow.now()): datetime_lagn = datetime.shift(months=+lag_n) return datetime_lagn.format('YYYY-MM-DD HH:MM:SS'),\ datetime_lagn.form...

2018-04-25 14:59:32 275

原创如何安装arrow

pip install arrow

2018-04-24 18:17:16 2210

原创两张表set在一起

oil_table_1 = pd.read_excel(u"D:\\20180418_1.xlsx")oil_table_2 = pd.read_excel(u"D:\\\20180418_2.xlsx")frame = [oil_table_1,oil_table_2]oil_table = pd.concat(frame)

2018-04-18 17:24:47 358

原创将index转为columns

方法一：df_orgcode = df_orgcode .reset_index()输出结果如下：方法二：df_orgcode['orgcode'] = df_orgcode.index

2018-04-17 16:29:40 8143

原创对列名排序

pandas DataFram 如何制定列的顺序（默认列名字典顺序）1、以提取子集的方式处理df_mrg = df_mrg[['orgcode','is_etc', 'is_equip','platf_cnt', 'contact', 'distributor'] 2、将表按照自己设想列的顺序输出到csv问题：默认的是按照列名的字典顺序排序的，要固定顺序...

2018-04-17 16:25:05 926

原创删除某一列或多列

删除某一列或多列删除一列，del data['a']删除多列，raw_4.drop(labels=['orgcode','city'],axis=1)

2018-04-17 16:22:11 3229

原创按列去重

data_np = data.drop_duplicates() ,data所有列完全相同才会删除data_np = data.drop_duplicates(['a','b']) 去重机制，去重是保留第一条记录还是最后一条记录，可以通过drop_duplicate中的参数keep控制data.drop_duplicates(['a','b'],keep='last'),默认保留第一个出现的值...

2018-04-17 16:21:22 353

原创如何按照条件填充或者替换某一列

如果为空用其他列填充：df_mrg.ix[df_mrg.contact.isnull(),'contact'] = df_mrg['contact2'] 如果contact为A用其他列填充：df_mrg.ix[df_mrg.contact==“A”,'contact'] = df_mrg['contact2'] ...

2018-04-17 16:20:12 3686 1

原创 pandas 去重删除等技巧

1、该列如果为空用其他列填充：df_mrg.ix[df_mrg.contact.isnull(),'contact'] = df_mrg['contact2'] 2、去重data_np = data.drop_duplicates() ,data所有列完全相同才会删除data_np = data.drop_duplicates(['a','b']) 去重机制，去重是保留第一条记录还是最后一条记录...

2018-04-13 09:49:38 2773

原创 mysql的两个函数FROM_UNIXTIME和UNIX_TIMESTAMP

最近看数据库，每张表中都有time_version,而且取值又看不出什么意思，知道是时间戳，想把他转为人类能够识别的格式，FROM_UNIXTIME(1523177523)=2018-04-08 16:52:03同时，逆向的，可以将当前时间转为这种长时间戳，比如UNIX_TIMESTAMP(NOW()) 1523344195...

2018-04-10 15:11:10 165

空空如也

空空如也