![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
butterfly1107
这个作者很懒,什么都没留下…
展开
-
由Unicode编码转为utf-8
# test.txt是以Unicode编码的文件,不限于txt格式f = open('D:\\test.txt','r',encoding='utf-16',errors='ignore')for line in f.readlines(): with open('abf.txt', 'ab') as out: line = line.encode('utf-8') ...原创 2018-05-02 14:03:34 · 680 阅读 · 0 评论 -
json输出到excel中
import pandas as pdimport numpy as npimport utilityimport jsonfrom pandas.io.json import json_normalizesql = """SELECT d.F_org_code,d.F_org_name,c.F_contact_info FROM((SELECT a.*,b.F_customer...原创 2018-08-08 17:23:06 · 940 阅读 · 0 评论 -
rank 函数
#排第一位的常跑路线上行驶的总里程#排第二位的常跑路线上行驶的总里程#排第三位的常跑路线上行驶的总里程sql = """SELECT orgCode,count(cnt) as cnt,addr,distancefrom (SELECT orgCode,(CASE when CONCAT(startCity,endCity)>=CONCAT(endCity,startCit...原创 2018-09-18 14:07:17 · 364 阅读 · 0 评论 -
《集体智慧编程》代码纠错 第四章 nn.py
在运行nn.py的时候一直报错,'dict_keys' object does not support indexing,后来debug了下,发现是hiddenids的数据格式问题,应该是list,所以找到了函数getallhiddenids(),这个函数的返回是一个dict,在调用的时候应该加上list. from math import tanh#from py...原创 2019-07-04 14:42:52 · 300 阅读 · 0 评论 -
类如何传入参数
类是通过 __init__ 方法接受参数。调用下面的类,cl = classifier(getwords),getfeatures=getwords,这里getfeatures是函数class classifier: def __init__(self,getfeatures,filename=None): # Counts of feature/categ...原创 2019-07-04 18:19:33 · 4018 阅读 · 0 评论 -
如何获取每个月的天数
为得到每个月的天数,实际上就是每个月最后一天的日期,最终生成如下表格:df = pd.DataFrame(pd.date_range(start='3/1/2017', periods=29, freq=pd.offsets.MonthEnd(1)),columns=['last_day'])df['data_mth'] = df['last_day'].dt.year*100...原创 2019-07-26 15:52:28 · 1807 阅读 · 0 评论 -
自定义各种分位数
org_bill_l12m.curr_km.quantile(0.05)org_bill_l12m.curr_km.quantile(0.1)org_bill_l12m.curr_km.quantile(0.25)原创 2019-07-23 14:22:10 · 649 阅读 · 0 评论 -
将省份转为区域
#将省份转为区域lcd_org_2.ix[lcd_org_2.省份.str.contains("山东|江苏|安徽|浙江|福建|江西|上海",na=False),'区域_2'] = "华东" lcd_org_2.ix[lcd_org_2.省份.str.contains("广东|广西|海南",na=False),'区域_2'] = "华南" lcd_org_2.ix[lcd_org_2.省...原创 2019-08-07 13:43:08 · 593 阅读 · 0 评论 -
单因子分析及其可视化
参考:https://blog.csdn.net/weixin_41761857/article/details/82026170数值型变量def NumVarTracker(df, col, target, filepath,truncation):# ‘‘‘# :param df: the dataset containing numerical independ...原创 2019-08-07 15:09:05 · 704 阅读 · 0 评论 -
统计一个字段所有取值的频次
bigtable_3['od_bill_cnt_ratio_grp'].value_counts()原创 2018-05-08 17:17:02 · 615 阅读 · 0 评论 -
按照某一列值排序
outfile.sort_values(by='old_score',inplace=True,ascending=False)原创 2018-05-08 05:32:26 · 277 阅读 · 0 评论 -
对列名重新命名
bigtable_3.rename(columns={'score_sum':'old_score','score_grp':'old_score_grp'}, inplace=True)原创 2018-05-08 05:23:03 · 1644 阅读 · 0 评论 -
第三方时间处理库arrow
安装方法pip install arrow def datetime_month_lag(lag_n,datetime=arrow.now()): datetime_lagn = datetime.shift(months=+lag_n) return datetime_lagn.format('YYYY-MM-DD HH:MM:SS'),\ datetime_lagn.form...原创 2018-04-25 14:59:32 · 244 阅读 · 0 评论 -
将多个dataframe写入同一个workbook中的不同sheet
writer = pd.ExcelWriter('group_freq.xlsx')#etc逾期账单占比 od_bill_cnt_ratio_grp = pd.crosstab(df.od_bill_cnt_ratio_grp,bigtable_11.bad_flag, margins=True) od_bill_cnt_ratio_grp.to_excel(write...原创 2018-05-10 11:41:52 · 2196 阅读 · 0 评论 -
在循环中动态生成变量
while (month_lag >= '201601'): locals()["lc_"+month_lag] = get_month_lc(-i) month_lag = utility.datetime_month_lag(-i)[3] i=i+1 print('The iter_lc is:', month_lag)通过locals()["lc_"+month_lag...原创 2018-04-26 11:41:39 · 1911 阅读 · 0 评论 -
定义空dataframe
lc_his = pd.DataFrame(columns=['distance_km', 'imei_num', 'month'])原创 2018-04-26 11:42:20 · 5299 阅读 · 0 评论 -
判断dataframe、list是否为空
1、判断dataframe是否为空 如果df为空,则 df.empty 返回 True,反之 返回False。2、判断list是否为空if len(all)=0 为空,否则为非空原创 2018-04-26 16:27:42 · 65091 阅读 · 3 评论 -
dataframe按照主键排序
lc_his = lc_his.sort_values(by = ['orgcode','month'],axis = 0,ascending = True)原创 2018-04-27 13:38:08 · 1110 阅读 · 0 评论 -
日期格式比较
某一列是日期格式datetime,将这一列和某一个日期比较将日期格式转为str之后再比较:R01_credit_mcht.ix[R01_credit_mcht['first_bill_date'].astype(str)>\ utility.datetime_month_lag(-2)[4].format('YYYY-MM-DD'),'use_end_flag...原创 2018-04-28 10:16:07 · 554 阅读 · 0 评论 -
如何将Series转为DataFrame
发现数据类型DataFrame,如果只有一列的数据类型就自动转为Series,很多时候需要将Series转为DataFramedf=s.to_frame()这时df就是DataFrame了原创 2018-05-07 17:22:47 · 51801 阅读 · 2 评论 -
计算3列的最大值
max_his=df[['max_od_days_wld_his','max_od_days_lulut_his','max_od_days_lcd_his','max_od_days_dlb_his']]df['fin_max_od_days_his'] = max_his.apply(lambda x: x.max(), axis=1)原创 2018-05-14 18:08:53 · 290 阅读 · 0 评论 -
pd.read_excel(path)报错OSERROR时的处理方式
f1 = open(u"D:\\work\\数据需求\\大宽表\\big_table_20180507.xlsx",'rb')bigtable = pd.read_excel(f1)原创 2018-05-08 05:13:11 · 2949 阅读 · 0 评论