自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 hive 时间运算

date_add(from_unixtime(unix_timestamp(batch_date,'yyyymmdd'),"yyyy-mm-dd"),1)date_add格式要求为2020-10-01才能加减

2020-11-11 10:37:50 445

原创 pyspark 模型训练 列名问题

模型训练时,如果变量是从hive中直接拿取,则通用但是当变量是现场加工时,变量的大小写可能和它默认的列名大小写不同,可能会报错

2020-09-13 18:14:27 197

原创 Python DataFrame 去除指定内容

tab=tab.loc[~tab.val_name.isin(ignore)]val_name 列名ignore去除的指定内容 为list

2020-09-05 18:13:25 1925

原创 python dataframe选取指定的列

简单操作:df[["col1","col2"]]

2020-08-08 14:36:19 8544

转载 pySpark dataframe列中获取最大值的最佳方法

转载https://www.itranslater.com/qa/details/2582633432329225216from pyspark.sql.functions import mean, min, maxresult = df.select([mean("A"), min("A"), max("A")])result.show()+------+------+------+|avg(A)|min(A)|max(A)|+------+------+------+| 2.

2020-07-30 11:05:08 7728

原创 pyspark 众数填充空值

转自:https://medium.com/@aieeshashafique/exploratory-data-analysis-using-pyspark-dataframe-in-python-bd55c02a2852def mode_of_pyspark_columns(df, cat_col_list, verbose=False): col_with_mode=[] for col in cat_col_list: #Filter null ...

2020-07-29 17:35:10 1354

原创 pyspark 获取表的列名和列的结构组合的列表

mian_table.types第三个的列名:mian_table.types[2][0]第三个的列的类型:mian_table.types[2][1]

2020-07-24 09:48:57 1429

原创 Python dataFrame 行列遍历

转载:https://www.jb51.net/article/172623.htmiteritems():按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row[index]对元素进行访问。示例数据 1 2 3 4 5 6 import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11, 'c2':110}, {'c1':..

2020-07-23 09:36:10 16372 3

原创 Python 字典、列表写入DataFrame

摘自:https://segmentfault.com/q/1010000020861753如果为{a:1,2,3,4}格式 将V 改成v.split(",")列表写入list=[1,2,3]df=df.append(list) 表现出的是列增加df.loc[len(df)]=list 表现的是行增加

2020-07-22 16:11:25 4822

原创 使用Pyspark计算Spark数据帧每列中非NaN条目的数量

原作者:跃然一笑让我们从虚拟数据开始:from pyspark.sql import Rowrow = Row("v", "x", "y", "z")df = sc.parallelize([ row(0.0, 1, 2, 3.0), row(None, 3, 4, 5.0), row(None, None, 6, 7.0), row(float("Nan"), 8, 9, float("NaN"))]).toDF()## +----+--...

2020-07-20 15:31:21 636

原创 pyspark fillna无反应问题

pyspark fillna()中填充的类型要和该列的类型要相同,否则无反应也不会报错。如 fillna(0,subset=["col1"]) 可以 但是 fillna("0"...)不行

2020-06-23 15:50:00 1544

转载 Spark实现行列转换pivot和unpivot

转自https://www.cnblogs.com/Allen-rg/p/10084933.html转自https://blog.csdn.net/lquarius/article/details/106685672

2020-06-19 11:20:21 130

原创 Python apply函数使用演例

df = pd.DataFrame({'x': list(range(1,1000)), 'y': list(range(1,1000)),'z': list(range(1,1000))})df.head()def func(m,n,l,a=1,b=2,c=3): h1=m*a+n*b+c h2=m*a+n*b-c h3=[h1,h2] return h1...

2020-04-12 18:51:55 140

原创 python取指定索引的多行

Fzhen_date_ident_m.loc[[1,3,5]]

2020-03-30 09:14:36 2351

转载 Python 画图

转载https://zhuanlan.zhihu.com/p/37406730

2020-02-08 16:03:59 90

原创 tensorflow 2.1导入Tensorflow出现ImportError: DLL load failed: 找不到指定的程序

试过网上的所有办法 降低Python到3.6 还有其他的库 都不适用于2.1版根据https://github.com/tensorflow/tensorflow/issues/36003装VS2019社区版成功解决>>> import tensorflow as tf2020-01-26 23:03:24.069105: W tensorflow/stream_e...

2020-01-26 23:08:22 6126 6

转载 Python之Numpy数组拼接,组合,连接

转载:https://www.douban.com/note/518335786/?type=like已知reshape函数可以有一维数组形成多维数组ravel函数可以展平数组b.ravel()flatten()函数也可以实现同样的功能区别:ravel只提供视图view,而flatten分配内存存储重塑:用元祖设置维度>>> b.shape=(4,2,3)...

2020-01-15 14:25:08 740

转载 python:pandas 合并多个DataFrame 汇总

转载https://www.jianshu.com/p/5ecea164cec6python 把几个DataFrame合并成一个DataFrame——merge,append,join,concatpandas provides various facilities for easily combining together Series, DataFrame, and Panel o...

2020-01-14 13:07:10 16747

转载 Python之NumPy(axis=0 与axis=1)区分

转载:https://www.cnblogs.com/rrttp/p/8028421.html转自:http://blog.csdn.net/wangying19911991/article/details/73928172 https://www.zhihu.com/question/5899313结论:记忆; 0 表示按行标签索引向下执行方法 ...

2020-01-07 14:54:17 103

原创 python坐标轴放大、标注栏、三维画图(自用与笔记)

from matplotlib.pyplot import MultipleLocatorfig=plt.figure()plt.plot(geatpy_cgq_qzy_f_da["n"],geatpy_cgq_qzy_f_da["X_dabi"],label="Lx2")plt.plot(geatpy_cgq_qzy_f_2d2a["n"],geatpy_cgq_qzy_f_2d2a["...

2020-01-05 22:41:16 3674

转载 Python动态生成初试变量

转载:https://blog.csdn.net/u013061183/article/details/78015673Python locals方法1 createVar = locals()2 listTemp = range(1,10)3 for i,s in enumerate(listTemp):4 createVar['a'+i] = s5 print a...

2020-01-01 17:09:52 118

转载 Python 复制列表

从https://www.cnblogs.com/fight-xiao/p/8660208.html转载在python中复制一个新列表,操作不影响原列表的方法有: 1 list1=[1,2,3,4] 1. 使用切片  切片在python中的作用是非常大的,可用作于所有的可迭代对象。使用: 1 l...

2019-12-12 10:15:12 52

原创 TypeError: only size-1 arrays can be converted to Python scalars

首先,给常感谢遗传算法geatpy优秀的开发者们,谢谢他们的帮助及他们的算法集合代码:http://geatpy.com/今天用遗传算法设置了一个问题,报错出现了:File "H:\pythonchengx_u\凿岩台车数据处理\Zaoyan_robot.py", line 15, in D_HT = np.array([[cos(theta),-sin(theta),0 ,a],......

2019-11-23 21:04:04 1396

原创 python中split处理字符内部多个不确定数量的空格

代码' '.join(pack_df[15].split())参考https://www.cnblogs.com/c-x-a/p/8921685.htmlsplit处理包括了\nsplit用法拓展:对指定个数进行切片

2019-11-04 11:21:02 2944

原创 mysql分组top N 嵌套

对XX国,YY国分别统计其购买最大数量的用户bc bc1表为统计各个用户的购买量SELECT bc1.*FROM(SELECT buyer_country_id,buyer_admin_id,COUNT(0) buycountFROM train_9GROUP BY buyer_admin_id) bc1WHERE bc1.buycount=(SELECT M...

2019-09-14 16:26:19 261 1

原创 华为练习:简单密码

replace 会替换字符串中 所有索引指代的字符 ,不能单个替换dic={"abc":'2',"def":'3',"ghi":'4',"jkl":'5',"mno":'6',"pqrs":'7',"tuv":'8',"wxyz":'9',\ "Z":"a"}line=input()for i in range(len(line)): zifu=line[i]# for...

2019-09-11 11:29:20 184

原创 牛客网输入格式及map转换int

import sysfor line in sys.stdin: m=line.split() m=list(map(int,m)) print(m[0]+m[1])

2019-09-11 09:40:41 340

原创 数据与结构算法:华为机试步长

给定一个正整数数组,最大为100个成员,从第一个成员开始,走到数组最后一个成员最少的步骤数.第一步必须从第一个元素开始,1<=步长<len/2,第二不开始以所在成员数字走相应的部署,如果目标不科大返回-1,只能输出最少的步骤数step_min=[]step_count=2def fist_step(num): for i in range(int(len(...

2019-09-08 10:29:06 1454

原创 数据结构与算法:求字符串最大不重复子串

a=input()max_count=[]def zichuan(input_a): count=[] for i in input_a: if i not in count: count.append(i) else: input_a=input_a[1:] max_cou...

2019-08-27 15:41:00 292

原创 天池竞赛查漏补缺:set sorted unique drop_duplicates 去重,保持原顺序使用辨析

#%% 去重,顺序随机l1 = ['b','c','d','b','c','a','a']l2=set(l1)#<class 'set'>print(l2,type(l2))l2=list(l2)print(l2,type(l2)){'b', 'c', 'a', 'd'} <class 'set'> ['b', 'c', 'a', 'd'] <cl...

2019-08-23 08:39:53 256

原创 天池查漏补缺:mysql:导入csv只有一行的问题

练习尝试:创建表:CREATE TABLE test_csv(id INT,aname VARCHAR(11));INSERT INTO test_csv VALUES(1,'ni');INSERT INTO test_csv VALUES(2,'uii');INSERT INTO test_csv VALUES(3,'nfghi');SELECT * FROM test...

2019-08-18 18:24:19 1856

原创 天池大赛查漏补缺:Mysql:错误代码: 1290 The MySQL server is running with the及mysql重启服务名无效

mysql导入CSV错误代码: 1290 The MySQL server is running with the --secure-file-priv option so it cannot execute this错误原因:在安装MySQL的时候限制了导入与导出的目录权限,只能在规定的目录下才能导入1.进入mysql查看secure_file_prive的值$mysql -u r...

2019-08-18 14:57:04 744

原创 天池大赛查漏补缺:CSV整列格式替换

1.某一列chong3['item_id'] = chong3['item_id'].astype(np.int32)

2019-08-17 20:47:24 252

原创 天池大赛查漏补缺:CSV打开设定列名,及取指定列、行索引,和修改列名

#delimiter=',' 以 , 分割成列 也可以以"/n"替代 #name为指定列名test_r=pd.read_csv("H:\\pythonchengx_u\\Antai\\Antai\\data\\Antai_AE_round1_submit_20190715.csv",delimiter=',', header=None, names= ["buyer_id", '1',...

2019-08-17 20:42:58 349

原创 天池大赛查漏补缺:TypeError: ufunc 'add' did not contain a loop with signature matching types

为了dateframe两列合并在一起,中间以","分开train['ccount']=train['buyer_admin_id']+','+train['item_id']出现TypeError: ufunc 'add' did not contain a loop with signature matching types一直以为是','的问题 因为train['ccount'...

2019-08-17 10:29:26 9401 1

原创 天池大赛查漏补缺:top50商品计算

# 商品行为计数,用于计算 top50 热门商品item_statistc = features.groupby(['item_id'])[['user_id']].count()#单一索引/复合索引相关知识 我对这个reset_index函数的重要性认识还待提高#http://selectgoodboy.blog.163.com/blog/static/1032120612015191...

2019-08-16 22:32:48 261

原创 天池竞赛查漏补缺:python dataframe类型操作替换为数字

# 用户行为置换成数字 可用来设置计算总评分或惩罚项features.loc[features['behavior_type']=='clk','behavior_type'] = 1features.loc[features['behavior_type']=='cart','behavior_type'] = -0.5features.loc[features['behavior_t...

2019-08-16 21:24:36 557

原创 天池竞赛查漏补缺:CSV结果数据融合

Python数据结构与算法填坑

2019-08-16 15:43:07 379

原创 天池竞赛查漏补缺:csv文件列表批量处理AttributeError: 'float' object has no attribute 'replace'

目的:批量处理天池比赛后多个模型数据融合,去除tuijian中的[]问题以下操作出现:AttributeError: 'float' object has no attribute 'replace'错误但是探索发现我的列表里面数据本身为str,无float类型虽然具体float类型指代对象没有找出来(如果哪位朋友知道,希望能提点以下 )但是加上强制转换以下两种方法可以...

2019-08-16 15:17:33 10153 4

原创 天池竞赛查漏补缺:关于Python错误提示: 'str' object is not callable

反复检查几遍之后,发现语句没有错误。在控制台输入相同语句,发现可以顺利执行输出正确结果。发现是因为前面的代码将str已经定义为一个普通变量,因此这里调用内置函数str()是无效的,会仍然认为是一个变量,自然就会提示是 not callable。也就是说 str() 是自带的内置函数,不可以在希望使用字符串转换函数的同时自定义一个 str 变量。 解决办法两种:...

2019-08-16 09:40:13 130

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除