大胖头leo-CSDN博客

转载 LibreSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443 问题+解决过程

LibreSSL SSL_connect: SSL_ERROR_SYSCALL in connection to github.com:443 问题+解决过程 - 简书

2021-10-22 14:43:33 3137

转载 2021-10-22Mac上的VSCode进行Github的配置

Mac上的VSCode进行Github的配置 - 简书https://www.jianshu.com/p/b1620b474b06/从win转mac自留用

2021-10-22 14:12:38 468

原创 Python获取昨天，今天，明天，本周，上周，本月，上月，本季，本年，去年时间。

#coding=utf-8importdatetimefromdatetimeimporttimedeltanow=datetime.datetime.now()#今天today=now#昨天yesterday=now-timedelta(days=1)#明天tomorrow=now+timedelta(days=1)<br><br>#当前季度now_quarter=n...

2020-09-15 00:28:11 858

原创 pyspark join 出现重复列的问题

对于dataframe df1,df2df3=df1.join(df2,df1.device_number=df2.device_number,"inner")df3就会出现两个相同列 device_number此时改成df3=df1.join(df2,“device_number”,"inner")就只有一个device_number了如果想多列key则df.join(df4, ['name', 'age'])...

2020-09-14 23:15:55 3279

原创错误：java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver

com.mysql.jdbc.Driver 是 mysql-connector-java 5中的JDBC连接Mysql5 com.mysql.jdbc.Driver:org.quartz.dataSource.qzDS.driver:com.mysql.jdbc.Driverorg.quartz.dataSource.qzDS.URL:jdbc:mysql://localhost:3306/mysql?useUnicode=true&characterEncoding=UTF-8

2020-09-14 23:08:05 1580

原创在线展示crontab命令结果

https://tool.lu/crontab

2020-08-08 12:54:35 520

原创往hive中写入数据，通过impala查询不到数据，通过hive客户端可以查到数据

在这种情况下，使用impala查询需要刷新元数据，把元数据信息统计到impala元数据存储中，再做查询。//重新加载所有库中的所有表INVALIDATE METADATA//重新加载指定的某个表INVALIDATE METADATA [table]...

2020-08-08 12:21:55 1796

原创 impala 看表结构

DESCRIBE table_name格式的语句。如果要了解像数据文件位置,ROWFORMAT或 STORED AS对应的值这些详细的信息,可以使用 DESCRIBE FORMATTED table_name。可以看到表的注释信息。compute stats统计表信息（impala查看表统计信息）analyze table 查看表统计信息（hive 查看表统计信息）...

2020-08-07 19:09:16 3083

原创 Hive操作——复制表结构和数据

一、复制表的结构create table if not exists database_nameA.table_nameA like database_nameB.table_nameB注意：这时候不会复制原表的分隔符。举个例子，我本来的库里面创建的表是以 '|' 来做分隔符的，但是我在将txt文件的内容导入（load data）新建的表里时，再去select表会出现下图的情况。并不是按列导入，而是把文件中的一行当做一列。这样的解决方法，我们在复制表的时候，需要指定分隔符：...

2020-08-07 19:07:55 1424

原创 hive创建一个分区表

create table 表名称(字段信息)PARTITIONED BY(分区名称1 数据类型 COMMENT '注释:可不写',分区名称2 数据类型 COMMENT '注释:可不写',)ROW FORMAT DELIMITED FIELDS TERMINATED BY '字段之间分割符' LINES TERMINATED BY '\n'...

2020-08-07 18:57:41 637

原创 Spark DataFrame 读取 text（文本文件）乱码

目前，Spark 2.4.3 读取 text（文本文件）的时候，只支持 UTF-8 编码，如果是其他编码（例如 GBK），返回的 DataFrame 会出现乱码。import org.apache.spark.sql.functions.{col, decode}spark.read.format("text").load(filePath).select(decode(col("value"), encoding).as("value"))...

2020-08-07 18:53:31 1580

原创 hive按日期年月实现动态分区，分桶表创建

注意：分区和分桶都是按字段来组织数据的存放，分区是相同的字段值存放在一个文件中，而分桶是字段哈希值相同的数据存放在一个文件中。目录Hive分区分为静态分区和动态分区概念动态分区的属性：hive动态分区分桶表hive读写模式：目标：按照表中数据创建时间的年月来进行分区Hive分区分为静态分区和动态分区概念静态分区：加载数据到指定分区的值。（按照固定的值进行分区：1，2，3就只分三个区）动态分区：数据未知，根据分区的值来确定需要创建的分区。（当 4 出..

2020-07-30 08:32:34 9039

原创 python编译出现SyntaxError: Non-ASCII character ‘\xe8‘ in file

出现这个问题主要是编译中出现了中文或特殊字符，所以可以使用以下方式解决：在文件头部加上（一定要加在第一行）# -*- coding: utf-8 -*-或# coding:utf-8

2020-07-26 23:32:01 1667

原创 spark dataframe所有列

#返回dataframe的所有列名dataFrame.schema.fields.map(f =>f.name).toList

2020-07-26 23:26:08 679

原创 Spark读取文件

spark读取文件时关于schema的注意点.option(“inferSchema”,“true”) 模式推理会导致加载两倍的源数据使用ByteType只能解析范围在[-128,127]内的整数，对于大于127的整数解析为null，并且会造成同行所有的列都被解析为null；所以应该使用IntegerType解析RGB列。由于谓词下推导致不会被解析的数据列，即使DataType指定有误，也不会造成同行的其他列为null，因为此列数据不会被解析。 ...

2020-07-26 23:19:45 279

原创 Spark集成Kudu的限制和已知问题

https://kudu.apache.org/docs/developing.html#_spark_integration_known_issues_and_limitationsKudu tables with a name containing upper case or non-ascii characters must be assigned an alternate name when registered as a temporary table. Kudu tables with a

2020-07-26 22:53:21 354

原创使用PySpark操作kudu

初始化sparkfrom pyspark.sql import SparkSessionspark = SparkSession.builder.appName('kudu_read').getOrCreate()读取kudu表df=spark.read.format("org.apache.kudu.spark.kudu") \ .option("kudu.table", "kudutable") \ .option(

2020-07-26 22:27:38 1089 2

原创 spark运行报错:java.io.IOException: (null) entry in command string: null chmod 0644(windows 环境)

window上运行spark程序出现java.io.IOException: (null) entry in command string: null chmod 0644解决方法：下载hadoop.dll文件，拷贝到c:\windows\system32目录中即可hadoop.dll可以在github上下载：https://github.com/4ttty/winutils各个版本的hadoop.dll好像是通用的。百度网盘链接：https://pan.baidu.com/s/12

2020-07-26 21:57:21 2460 4

原创 hive 创建table的文件命名

https://stackoverflow.com/questions/8536066/hive-create-table-filename-000000-0

2020-07-13 17:50:55 375

原创 crontab命令

https://www.cnblogs.com/kenshinobiy/p/7685229.htmlhttps://blog.csdn.net/Trigl/article/details/62230233?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-.

2020-07-13 17:46:01 134

原创 Hive文件格式（表stored as 的五种类型）

https://blog.csdn.net/yangshaojun1992/article/details/85124287

2020-07-13 17:44:20 947

转载 Linux shell创建空文件(0字节大小)文件方法

https://blog.csdn.net/yexiangcsdn/article/details/81028359

2020-07-13 17:43:44 1928

转载 python打包成exe执行时获取控制台传入的参数问题

https://www.cnblogs.com/wyjajt/p/13259184.html

2020-07-13 17:42:05 2908

原创 Python 3/将脚本打包成不需要装环境也可以运行的工具(selenium pyinstaller）

https://blog.csdn.net/qq_38959715/article/details/98746804https://www.cnblogs.com/huchong/p/10078182.html

2020-07-13 17:40:55 1864

原创 pyspark 程序手工日志查看

https://stackoverflow.com/questions/37407256/pyspark-print-to-console可以通过yarn webUI查看

2020-07-13 17:39:42 596

转载 cmd 下创建新文件（不是文件夹）

https://www.cnblogs.com/kaluosifa/p/9911387.html

2020-07-13 17:35:43 672

转载 hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例 (还没看)

https://blog.csdn.net/zzq900503/article/details/104537121

2020-07-13 17:35:06 560

转载在线 LaTeX 编辑网站overleaf.com加载缓慢解决办法

https://zhuanlan.zhihu.com/p/108974887

2020-07-13 17:34:15 4809

原创 Spark 常用action,及操作汇总

DataSet 的函数详细API常见此链接Action 操作1、collect() ,返回值是一个数组，返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组，返回dataframe集合所有的行3、count() 返回一个number类型的，返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表值(count, mean, stddev, min, and max)，这个可以...

2020-06-29 00:08:22 1771

转载 hive中查找表或者查看表的信息

https://blog.csdn.net/TOMOCAT/article/details/81201933

2020-06-29 00:02:19 11213

原创 Python:解压一个.zip文件或一个目录下的所有.zip文件到指定目录。

''' 解压一个.zip文件或一个目录下的所有.zip文件到指定目录。运行方法：格式： python unzip.py "source_dir" "dest_dir" password 参数说明： source_dir和dest_dir既可以绝对路径也可以为相对路径。用""将它们括起为了防止路径中出现空格。 source_dir和dest_dir的缺省值表示当前目录。 password缺省表示压缩文件未加密。 .

2020-06-28 23:58:54 3030

原创【SparkSQL】partitionColumn, lowerBound, upperBound, numPartitions如何加速数据库抽取（oracle）

在SparkSQL中，读取数据的时候可以分块读取。例如下面这样，指定了partitionColumn，lowerBound，upperBound，numPartitions等读取数据的参数。简单来说，就是并行读取。关于这四个参数的意思，SparkSQL官方解释是：Property Name Meaning partitionColumn, lowerBound, upperBound These options must all be specified if any ...

2020-06-28 17:28:31 1031 1

原创 Pyspark Dataframe 根据一个list的内容来 filter

意思就是df.filter(df.name in [a,b,c,d,e,f,g]) 大概这个意思from pyspark.sql.functions import coldf.filter(col("name").isin(a_list)).show()

2020-06-23 14:16:38 5627

原创 pyspark Dataframe添加一列常量列

比如添加1列 “0”使用from pyspark.sql.functions import litdm.withColumn('Flag_last_entry',lit(0))\ .withColumn('Flag_2',lit(0))

2020-06-23 13:22:49 3857

原创 Spark Dataframe 和 Pandas dataframe 互相转化

spark dateframe 到pandas dataframepandas_df = schemaPeople.toPandas()pandas dateFrame 转换成 sparkDatefreamesparkdataframe = spark.createDataFrame(pandas_df)sparkdataframe = spark.createDataFrame(pandas_df,schema)

2020-06-22 22:30:42 1749

原创 pyspark 连接oracle错误：java.sql.SQLException: No suitable driver

spark.read.format（）出错py4j.protocol.Py4JJavaError: An error occurred while calling o26.load.: java.sql.SQLException: No suitable driveroracle：1. Oracle数据库在安装后一般会在$ORACLE_HOME/jdbc/lib目录中放置ojdbc*.jar等jar文件，将这些文件复制到spark集群服务器上，比如$SPARK_HOME/jars/中，然后.

2020-06-22 22:20:13 707

原创 pyspark 读取csv文件创建DataFrame的两种方法

方法一：用pandas辅助from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sc = SparkContext()sqlContext=SQLContext(sc) df=pd.read_csv(r'game-clicks.csv') sdf=sqlc.createDataFrame(df)方法二：纯sparkfrom pyspark import Spa

2020-06-18 17:00:48 1154

原创 Yarn-AM-资源不足异常、和spark作业问题

Application is added to the scheduler and is not yet activated. Queue's AM resource limit exceeded. Details : AM Partition = 3ssystem; AM Resource Request = <memory:4096, vCores:1>; Queue Resource Limit for AM = <memory:6144, vCores:3>; User A.

2020-06-18 16:58:41 4125

转载 Spark警告Neither spark.yarn.jars nor spark.yarn.archive is set

同理问题https://blog.csdn.net/a8131357leo/article/details/100774694?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522159232809119724846413808%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=15923280911972484641

2020-06-17 01:35:00 725

原创 Hadoop 推出安全模式 name node is in safe node

#way_1hadoop dfsadmin -safemode leave#way_2hdfs dfsadmin -safemode leave

2020-06-16 14:04:31 290

空空如也

空空如也