自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(125)
  • 收藏
  • 关注

转载 LibreSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443 问题+解决过程

LibreSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443 问题+解决过程 - 简书

2021-10-22 14:43:33 3137

转载 2021-10-22Mac上的VSCode进行Github的配置

Mac上的VSCode进行Github的配置 - 简书https://www.jianshu.com/p/b1620b474b06/从win转mac自留用

2021-10-22 14:12:38 468

原创 Python获取昨天,今天,明天,本周,上周,本月,上月,本季,本年,去年时间。

#coding=utf-8importdatetimefromdatetimeimporttimedeltanow=datetime.datetime.now()#今天today=now#昨天yesterday=now-timedelta(days=1)#明天tomorrow=now+timedelta(days=1)<br><br>#当前季度now_quarter=n...

2020-09-15 00:28:11 858

原创 pyspark join 出现重复列的问题

对于dataframe df1,df2df3=df1.join(df2,df1.device_number=df2.device_number,"inner")df3就会出现两个相同列 device_number此时改成df3=df1.join(df2,“device_number”,"inner")就只有一个device_number了如果想多列key则df.join(df4, ['name', 'age'])...

2020-09-14 23:15:55 3279

原创 错误:java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

com.mysql.jdbc.Driver 是 mysql-connector-java 5中的JDBC连接Mysql5 com.mysql.jdbc.Driver:org.quartz.dataSource.qzDS.driver:com.mysql.jdbc.Driverorg.quartz.dataSource.qzDS.URL:jdbc:mysql://localhost:3306/mysql?useUnicode=true&characterEncoding=UTF-8

2020-09-14 23:08:05 1580

原创 在线展示crontab命令结果

https://tool.lu/crontab

2020-08-08 12:54:35 520

原创 往hive中写入数据,通过impala查询不到数据,通过hive客户端可以查到数据

在这种情况下,使用impala查询需要刷新元数据,把元数据信息统计到impala元数据存储中,再做查询。//重新加载所有库中的所有表INVALIDATE METADATA//重新加载指定的某个表INVALIDATE METADATA [table]...

2020-08-08 12:21:55 1796

原创 impala 看表结构

DESCRIBE table_name格式的语句。如果要了解像数据文件位置,ROWFORMAT或 STORED AS对应的值这些详细的信息,可以使用 DESCRIBE FORMATTED table_name。可以看到表的注释信息。compute stats统计表信息 (impala查看表统计信息)analyze table 查看表统计信息 (hive 查看表统计信息)...

2020-08-07 19:09:16 3083

原创 Hive操作——复制表结构和数据

一、复制表的结构create table if not exists database_nameA.table_nameA like database_nameB.table_nameB注意:这时候不会复制原表的分隔符。举个例子,我本来的库里面创建的表是以 '|' 来做分隔符的,但是我在将txt文件的内容导入(load data)新建的表里时,再去select表会出现下图的情况。并不是按列导入,而是把文件中的一行当做一列。这样的解决方法,我们在复制表的时候,需要指定分隔符:...

2020-08-07 19:07:55 1424

原创 hive创建一个分区表

create table 表名称(字段信息)PARTITIONED BY(分区名称1 数据类型 COMMENT '注释:可不写',分区名称2 数据类型 COMMENT '注释:可不写',)ROW FORMAT DELIMITED FIELDS TERMINATED BY '字段之间分割符' LINES TERMINATED BY '\n'...

2020-08-07 18:57:41 637

原创 Spark DataFrame 读取 text(文本文件)乱码

目前,Spark 2.4.3 读取 text(文本文件)的时候,只支持 UTF-8 编码,如果是其他编码(例如 GBK),返回的 DataFrame 会出现乱码。import org.apache.spark.sql.functions.{col, decode}spark.read.format("text").load(filePath).select(decode(col("value"), encoding).as("value"))...

2020-08-07 18:53:31 1580

原创 hive按日期年月实现动态分区,分桶表创建

注意:分区和分桶都是按字段来组织数据的存放,分区是相同的字段值存放在一个文件中,而分桶是字段哈希值相同的数据存放在一个文件中。目录Hive分区分为静态分区和动态分区概念动态分区的属性:hive动态分区分桶表hive读写模式:目标:按照表中数据创建时间的年月来进行分区Hive分区分为静态分区和动态分区概念静态分区:加载数据到指定分区的值。(按照固定的值进行分区:1,2,3就只分三个区)动态分区:数据未知,根据分区的值来确定需要创建的分区。(当 4 出..

2020-07-30 08:32:34 9039

原创 python编译出现SyntaxError: Non-ASCII character ‘\xe8‘ in file

出现这个问题主要是编译中出现了中文或特殊字符,所以可以使用以下方式解决:在文件头部加上(一定要加在第一行)# -*- coding: utf-8 -*-或# coding:utf-8

2020-07-26 23:32:01 1667

原创 spark dataframe所有列

#返回dataframe的所有列名dataFrame.schema.fields.map(f =>f.name).toList

2020-07-26 23:26:08 679

原创 Spark读取文件

spark读取文件时关于schema的注意点.option(“inferSchema”,“true”) 模式推理会导致加载两倍的源数据 使用ByteType只能解析范围在[-128,127]内的整数, 对于大于127的整数解析为null,并且会造成同行所有的列都被解析为null;所以应该使用IntegerType解析RGB列。 由于谓词下推导致不会被解析的数据列,即使DataType指定有误,也不会造成同行的其他列为null,因为此列数据不会被解析。 ...

2020-07-26 23:19:45 279

原创 Spark集成Kudu的限制和已知问题

https://kudu.apache.org/docs/developing.html#_spark_integration_known_issues_and_limitationsKudu tables with a name containing upper case or non-ascii characters must be assigned an alternate name when registered as a temporary table. Kudu tables with a

2020-07-26 22:53:21 354

原创 使用PySpark操作kudu

初始化sparkfrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('kudu_read').getOrCreate()读取kudu表df=spark.read.format("org.apache.kudu.spark.kudu") \ .option("kudu.table", "kudutable") \ .option(

2020-07-26 22:27:38 1089 2

原创 spark运行报错:java.io.IOException: (null) entry in command string: null chmod 0644(windows 环境)

window上运行spark程序出现java.io.IOException: (null) entry in command string: null chmod 0644解决方法:下载hadoop.dll文件,拷贝到c:\windows\system32目录中即可hadoop.dll可以在github上下载:https://github.com/4ttty/winutils各个版本的hadoop.dll好像是通用的。百度网盘链接:https://pan.baidu.com/s/12

2020-07-26 21:57:21 2460 4

原创 hive 创建table的文件命名

https://stackoverflow.com/questions/8536066/hive-create-table-filename-000000-0

2020-07-13 17:50:55 375

原创 crontab命令

https://www.cnblogs.com/kenshinobiy/p/7685229.htmlhttps://blog.csdn.net/Trigl/article/details/62230233?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-.

2020-07-13 17:46:01 134

原创 Hive文件格式(表stored as 的五种类型)

https://blog.csdn.net/yangshaojun1992/article/details/85124287

2020-07-13 17:44:20 947

转载 Linux shell创建空文件(0字节大小)文件方法

https://blog.csdn.net/yexiangcsdn/article/details/81028359

2020-07-13 17:43:44 1928

转载 python打包成exe执行时获取控制台传入的参数问题

https://www.cnblogs.com/wyjajt/p/13259184.html

2020-07-13 17:42:05 2908

原创 Python 3/将脚本打包成不需要装环境也可以运行的工具(selenium pyinstaller)

https://blog.csdn.net/qq_38959715/article/details/98746804https://www.cnblogs.com/huchong/p/10078182.html

2020-07-13 17:40:55 1864

原创 pyspark 程序手工日志 查看

https://stackoverflow.com/questions/37407256/pyspark-print-to-console可以通过yarn webUI查看

2020-07-13 17:39:42 596

转载 cmd 下创建新文件(不是文件夹)

https://www.cnblogs.com/kaluosifa/p/9911387.html

2020-07-13 17:35:43 672

转载 hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例 (还没看)

https://blog.csdn.net/zzq900503/article/details/104537121

2020-07-13 17:35:06 560

转载 在线 LaTeX 编辑网站overleaf.com加载缓慢解决办法

https://zhuanlan.zhihu.com/p/108974887

2020-07-13 17:34:15 4809

原创 Spark 常用action,及操作汇总

DataSet 的函数详细API常见此链接Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max),这个可以...

2020-06-29 00:08:22 1771

转载 hive中查找表或者查看表的信息

https://blog.csdn.net/TOMOCAT/article/details/81201933

2020-06-29 00:02:19 11213

原创 Python:解压一个.zip文件或一个目录下的所有.zip文件到指定目录。

''' 解压一个.zip文件或一个目录下的所有.zip文件到指定目录。 运行方法: 格式: python unzip.py "source_dir" "dest_dir" password 参数说明: source_dir和dest_dir既可以绝对路径也可以为相对路径。用""将它们括起为了防止路径中出现空格。 source_dir和dest_dir的缺省值表示当前目录。 password缺省表示压缩文件未加密。 .

2020-06-28 23:58:54 3030

原创 【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions如何加速数据库抽取(oracle)

在SparkSQL中,读取数据的时候可以分块读取。例如下面这样,指定了partitionColumn,lowerBound,upperBound,numPartitions等读取数据的参数。简单来说,就是并行读取。关于这四个参数的意思,SparkSQL官方解释是:Property Name Meaning partitionColumn, lowerBound, upperBound These options must all be specified if any ...

2020-06-28 17:28:31 1031 1

原创 Pyspark Dataframe 根据一个list的内容来 filter

意思就是df.filter(df.name in [a,b,c,d,e,f,g]) 大概这个意思from pyspark.sql.functions import coldf.filter(col("name").isin(a_list)).show()

2020-06-23 14:16:38 5627

原创 pyspark Dataframe添加一列常量列

比如添加1列 “0”使用from pyspark.sql.functions import litdm.withColumn('Flag_last_entry',lit(0))\ .withColumn('Flag_2',lit(0))

2020-06-23 13:22:49 3857

原创 Spark Dataframe 和 Pandas dataframe 互相转化

spark dateframe 到pandas dataframepandas_df = schemaPeople.toPandas()pandas dateFrame 转换成 sparkDatefreamesparkdataframe = spark.createDataFrame(pandas_df)sparkdataframe = spark.createDataFrame(pandas_df,schema)

2020-06-22 22:30:42 1749

原创 pyspark 连接oracle错误:java.sql.SQLException: No suitable driver

spark.read.format()出错py4j.protocol.Py4JJavaError: An error occurred while calling o26.load.: java.sql.SQLException: No suitable driveroracle:1. Oracle数据库在安装后一般会在$ORACLE_HOME/jdbc/lib目录中放置ojdbc*.jar等jar文件,将这些文件复制到spark集群服务器上,比如$SPARK_HOME/jars/中,然后.

2020-06-22 22:20:13 707

原创 pyspark 读取csv文件创建DataFrame的两种方法

方法一:用pandas辅助from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sc = SparkContext()sqlContext=SQLContext(sc) df=pd.read_csv(r'game-clicks.csv') sdf=sqlc.createDataFrame(df)方法二:纯sparkfrom pyspark import Spa

2020-06-18 17:00:48 1154

原创 Yarn-AM-资源不足异常、和spark作业问题

Application is added to the scheduler and is not yet activated. Queue's AM resource limit exceeded. Details : AM Partition = 3ssystem; AM Resource Request = <memory:4096, vCores:1>; Queue Resource Limit for AM = <memory:6144, vCores:3>; User A.

2020-06-18 16:58:41 4125

转载 Spark警告Neither spark.yarn.jars nor spark.yarn.archive is set

同理问题https://blog.csdn.net/a8131357leo/article/details/100774694?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159232809119724846413808%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=15923280911972484641

2020-06-17 01:35:00 725

原创 Hadoop 推出安全模式 name node is in safe node

#way_1hadoop dfsadmin -safemode leave#way_2hdfs dfsadmin -safemode leave

2020-06-16 14:04:31 290

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除