python
木给哇啦丶
这个作者很懒,什么都没留下…
展开
-
python pool多线程SparkSession无法共享异常解决
错误写法,此种写法会导致SparkSession无法共享异常from multiprocessing import Poolfrom pyspark import SparkConffrom pyspark.sql import SparkSessionos.environ["PYSPARK_PYTHON"] = "/usr/local/anaconda3/bin/python3.6"os.environ["PYSPARK_DRIVER_PYTHON"] = "/usr/local/anac原创 2020-07-02 22:15:46 · 552 阅读 · 0 评论 -
pyspark读取指定分隔符文件,dataframe与csv互转
dataframe转csv,并将文件保存至HDFS,然后下载到本地dfResult = spark.sql("select * from tmp.lanfz_dirty_imei")dfResult.write.format("csv").option("header","true").mode("overwrite").save("/user/lanfz/dirty_imei/")注意:结果目录可能会产生多个文件提供以下两种方式合并文件,并获取到本地方式一(适用较大数据量)dfR.原创 2020-06-28 21:54:40 · 3112 阅读 · 2 评论 -
python获取指定日期或指定月份的任意前后月份或任意天的日期
常用时间处理逻辑1,获取指定日期或指定月份前后n个月日期 from datetime import datetime, timedelta from dateutil.relativedelta import relativedelta # 指定日期 date = "20200129" add_month = (datetime.strptime(date, "%Y%m%d") + relativedelta(months=+1)).strftime.原创 2020-06-17 10:43:49 · 1759 阅读 · 0 评论 -
Pandas中read_csv()方法参数用法介绍之一
# !/usr/bin/python3.6# o(* ̄︶ ̄*)o coding:UTF-8 o(* ̄︶ ̄*)oimport pandas as pdfrom io import StringIOdata = data = ('col1,col2,col3\na,b,1\na,b,2\nc,d,3')d = pd.read_csv(StringIO(data))# print(d)# usecols 过滤列,筛选将要使用的列 使用此参数可以大大加快解析时间并降低内存使用量。d = p.原创 2020-06-15 23:42:29 · 1697 阅读 · 0 评论 -
Python获取指定日期前后n月的时间
>>> from datetime import datetime, timedelta>>> from dateutil.relativedelta import relativedelta>>>>>> d_str = '20200612'>>> diff = 1>>> d = str(datetime.date(datetime.strptime(d_str, '%Y%m%d')) -.原创 2020-06-12 23:54:02 · 919 阅读 · 0 评论 -
Python获取指定日期前后n天的时间
>>> from datetime import datetime, timedelta>>>>>> n = 1>>> d1 = (datetime.now() - timedelta(days=n)).strftime("%Y%m%d")>>> d1'20200611'>>>>>> n = 1>>> d_str = '2020-06-12'&g.原创 2020-06-12 23:52:44 · 964 阅读 · 0 评论 -
Hive优化十大原则
一. 表连接优化1. 将大表放后头Hive假定查询中最后的一个表是大表。它会将其它表缓存起来,然后扫描最后那个表。因此通常需要将小表放前面,或者标记哪张表是大表:/*streamtable(table_name) */select /*+ MAPJOIN(time_dim) */ count(1) from store_sales join time_dim on (ss_sold_time_sk = t_time_sk)或者使用参数set hive.auto.con...原创 2020-06-07 21:59:47 · 587 阅读 · 0 评论 -
PySpark中UDF函数使用
Pyspark内置函数有时不能解决全部需求,这时需要我们写一些udf来解决实际业务,Pyspark中提供了此种方法,脚本中导入 from pyspark.sql import functions as F便可轻松实现,我这里是解决经纬问题,写的一个udf示例。(部分代码已省略)#!/usr/bin/python3.6# -*- coding: utf-8 -*-from pyspark.sql import functions as Ffrom pyspark.sql...原创 2020-06-06 15:37:54 · 2328 阅读 · 0 评论 -
如何将模型转换为pmml文件,Python生成PMML模型文件
开发工具: PyCharm 语言:Python 3.7 三方包 sklearn --机器学习 https://scikit-learn.org/stable/ sklearn2pmml --把机器学习模型翻译成PMML文件 任务 读取数据,训练模型,输出PMML文件 示例代码:from sklearn import treefrom sklearn.datasets ...原创 2020-05-30 11:14:16 · 3920 阅读 · 1 评论 -
python获取00~23格式,小时数补全00
业务中有时需要手工获取小时,普通方法只能得到0,但python中提供获取00的方法,以下提供两种第一种:%s法>>> for i in range(0, 24):...print("%02d" % i)执行结果如下:第二种 .format法# 按位置方式>>> for i in range(0, 24):...print("{:02d}".format(i))执行结果如下:#传参数方式...原创 2020-05-25 21:54:23 · 1793 阅读 · 0 评论 -
如何将dataframe导成csv,并保存到本地
dfResult = spark.sql("select * from tmp.lanfz_dirty_imei")dfResult.write.format("csv").option("header","true").mode("overwrite").save("/user/lanfz/dirty_imei/")# 注意:结果目录可能会产生多个文件# 提供以下两种方式合并文件,并获取...原创 2020-04-27 17:17:57 · 7853 阅读 · 3 评论 -
python内置函数用法,超级详细
01、abs() 描述:返回数字绝对值或复数的模语法:abs( x )参数:x 数值表达式。案例:>>> abs(-6)602、all()描述:接受一个迭代器,如果迭代器(元组或列表)的所有元素都为真,那么返回True,否则返回False,元素除了是 0、空、None、False 外都算 True。注意:空元组、空列表返回值为True,这...原创 2020-04-19 22:25:34 · 571 阅读 · 0 评论 -
python使用datetime、dateutil获取指定日期或指定月份的任意前后月份或任意天的日期
常用时间处理逻辑1,获取指定日期或指定月份前后n个月日期from datetime import datetime, timedeltafrom dateutil.relativedelta import relativedelta# 指定日期date = "20200129"add_month = (datetime.strptime(date, "%Y%m%d") + re...原创 2020-04-16 14:28:55 · 3606 阅读 · 0 评论 -
python第三方库dateutil快速使用
静下心来仔细看,很好理解!!!>>> from dateutil.relativedelta import *>>> from dateutil.easter import *>>> from dateutil.rrule import *>>> from dateutil.parser import *>...原创 2020-04-16 14:25:42 · 635 阅读 · 0 评论 -
Python datetime模块详解与使用
一、datetime模块介绍(一)、datetime模块中包含如下类: 类名 功能说明 date 日期对象,常用的属性有year, month, day time 时间对象 datetime 日期时间对象,常用的属性有hour, minu...原创 2020-04-16 14:16:22 · 1283 阅读 · 0 评论