自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 收藏
  • 关注

原创 windows环境使用PySpark遇到的一些问题

1、报错:PyCharm运行demo文件时报错:py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout does not exist in the JVM。解决方案:下载 mysql-connector-java-8.0.22.jar 文件,并复制到 java 安装目录下的 jre/lib/ext 文件夹下。首先,spark,hadoop,java的相关部署在这不作详细说明。

2023-03-23 17:24:50 580

原创 简单记录Flink批处理数据的一些算子,distinct,filter

flink批处理数据的distinct、filter算子使用示例

2022-10-18 16:06:06 579

转载 java hdfs kerberos 认证超时 Receive timed out

安装需要一些依赖:比如thrift,sasl,等等Command ""D:\Program Files\PYTHON\python.exe" -u -c "import setuptools, tokenize;__file__='c:\\users\\41590\\appdata\\local\\tem...

2022-09-30 17:02:47 2278

转载 Datax使用rdbmsreader支持clickhouse的读取

datax clickhousereader

2022-07-28 10:07:57 1542

原创 Flink+Druid+Clickhouse相关报错

Flink+Druid+Clickhouse相关报错

2022-07-19 17:40:02 1146

原创 【总结】Datax 同步数据到有kerberos认证的集群hdfs相关问题简单记录

参考链接:1、(2条消息) 记一次datax hdfswriter的踩坑记(上传文件到hdfs的坑)_果汁华的博客-CSDN博客_datax hdfswrite2、HdfsWriter写文件报错 · Issue #54 · alibaba/DataX (github.com)背景:需要使用Datax把业务数据从MySQL同步到hadoop集群1、json文件增加Kerberos认证的相关属性:查看$HADOOP_HOME/etc/hadoop/hdfs-site.xml,找到认证的相关.

2022-01-18 14:43:49 1846

原创 windows安装python2、python3共存

参考链接:https://blog.csdn.net/u013948858/article/details/77800663新公司使用windows做开发环境,在python版本选择与共存上花费了一点时间,这里简单记录一下:1、python的安装:官网下载,我选择的版本是python2.7.18和python3.9.6- 先安装了python2.7,安装目录在D盘(D:\install\Python\Python27)- 然后把目录下python.exe,phthonw.exe分别改成了

2022-01-11 09:34:45 676

原创 Error running query: Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci

背景:用mysql做多表联查时,遇到这种报错:Error running query: Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci解决:select * from tab1 a left join tab2 bon a.id=CONVERT(b.id USING utf8) COLLATE utf8_unicode_ci参考:https://stackoverflo..

2020-09-17 18:22:43 839

转载 python3.6报错ModuleNotFoundError: No module named ‘MySQLdb‘及解决方法

转自:https://blog.csdn.net/liubin9043/article/details/79905645from sqlalchemy import create_enginesqlcont = create_engine('mysql://root:root@127.0.0.1:3306/test?charset=utf8')报错:ModuleNotFoundError: No module named 'MySQLdb'解决方法:MySQLdb只支持Py..

2020-09-16 10:45:22 10359 1

原创 SQLAlchemy操作MySQL读取字段名称,类型,注释时,注释中文乱码解决方案

背景:想要读取MySQL里某张表的字段名称,类型,注释,在MySQL界面操作没有出现中文乱码,脚本调用查询sql时出现乱码:SELECT column_name, data_type, column_comment FROM information_schema.columns WHERE table_schema ='user' and table_name ='user_info' ...

2020-04-15 15:29:11 880

转载 docker打镜像报错ERROR: http://mirrors.aliyun.com/××: temporary error (try again later)

转载自:https://www.cnblogs.com/Qing-840/p/9958364.html如题:打镜像报错:解决方法:sudo vim /etc/default/docker添加以下内容:DOCKER_OPTS="--dns 114.114.114.114"然后重启Docker服务:sudo systemctl restart docker...

2020-04-03 16:28:05 3183 2

原创 【报错】Hive:cannot be cast to org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector

Hive使用过程遇到报错:Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.objectinspector.StandardStructObjectInspector cannot be cast to org.apache.hadoop.hive.serde2.objectinspector.Pri...

2020-03-25 14:38:13 8935

原创 【总结】Datax使用过程中遇到的问题

工作中使用到阿里的数据同步工具Datax,发现除了不支持redis作为读写的数据源之外,支持几乎所有常见类型的数据源在使用过程中遇到了几个问题,这里记录一下:ps:Datax的使用方法不做介绍。问题场景:1、数据从MySQL同步到 HDFS ,最终用hive进行使用,发现时间在同步过程中会出现八小时变动解决方法:mysqlreader的jdbcUrl参数指定时区,如:...

2020-03-20 20:03:52 3973 1

原创 【记录】Zookeeper使用过程遇到的问题

参考链接:https://blog.csdn.net/jiangxiulilinux/article/details/964335601、下载安装不多赘述:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.5.6/2、配置conf:cd $ZOOKEEPER_HOME/confcp zoo_sampl...

2020-02-28 15:37:44 366

原创 【记录】安装hive过程遇到的问题

1、hadoop安装不做赘述;2、安装hive:①下载hive**.tar.gz到指定位置:wget http://mirror.bit.edu.cn/apache/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz②解压:tar -xvf apache-hive-2.3.6-bin.tar.gz③配置/etc/profile:...

2020-02-25 19:37:59 540

原创 【记录】SQOOP 使用过程中遇到的问题

------》HADOOP生态的安装不多做阐述,网上找资料即可------》SQOOP安装和配置不做阐述1、sqoop测试时 总是卡在SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]这一步,仔细一看log:SLF4J: Class path contains multiple SLF4J bi...

2020-02-25 11:06:09 858

原创 使用Datax插件时写入MySQL数据库遇到Could not retrieve transation read-only status server

问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server查找解决方案时,发现有以下解决方案:1、修改 数据库的隔离级别,将REPEATABLE-READ修改为READ-COMMITED,----不适用,查看数据库的隔离级别,发现不需修改...

2020-02-24 10:21:08 1676

原创 robomongo启动报错,QStandardPaths: XDG_RUNTIME_DIR not set...Could not connect to any X display.

参考自:https://blog.csdn.net/weixin_33928467/article/details/88905592启动mongodb的可视化工具robomongo 时报错:××@localhost:/usr/local/robomongo/bin$ sudo ./robo3t QStandardPaths: XDG_RUNTIME_DIR not set, de...

2020-01-13 18:07:02 5864 1

原创 Spark 使用过程中遇见的问题

参考:https://blog.csdn.net/SCGH_Fx/article/details/72529132---------------------------------------------------------------------------------------------------------------------------------------------...

2019-12-18 16:55:39 3272 2

原创 hadoop系统搭建启动不了NameNode问题解决过程

照着网上诸多教程在本地搭建了一个伪分布式的Hadoop和spark,结果遇到了很多问题,虽然最后解决了任然觉得略坑,谨以此文聊作记录:一、背景:Ubuntu16.04二、步骤:1、自行安装JDK2、下载hadoop,spark安装包,安装位置自己定,我的路径在/usr/local/3、配置/etc/profile文件,export JAVA_HOME=/usr/local...

2019-12-13 20:25:08 1144

转载 ERROR 1698 (28000): Access denied for user 'root'@'localhost'安装MySQL时未设置密码,普通用户连接MySQL时需要密码进入的解决办法

1.使用sudo apt-get install mysql-server安装数据库,在安装的过程中未设置密码。2.在普通用户下使用命令mysql -uroot -p连接数据库,由于没有设置密码,所以在需要输入密码的时候,直接按了Enter键,从而导致了错误:ERROR 1698 (28000): Access denied for user 'root'@'localhost'解决办...

2019-10-18 14:27:16 407

原创 airflow踩坑记录

参考链接:https://www.cnblogs.com/jimtheman/p/8465754.html1、初始化airflow后,链接数据库改为postgresql,但是测试task时总是报错:(env) ××@pc:~/workspace/airflow$ airflow test example_bash_operator run_after_loop 2019-07-06sq...

2019-07-09 18:10:36 2277

转载 解决ubuntu下缺少sasl.h的问题

转自: https://blog.csdn.net/yj1499945/article/details/52776453只需要用:sudo apt-get install libsasl2-dev 即可

2019-05-10 17:35:58 929

原创 pandas:多个dataframe写入同一个excel, html

1,dataframe 写入excel:多个dataframe需要写入同一个excel时,每次使用df.to_excel(文件名)的形式去写,系统都会重新创建一个新的文件。也就意味着前面的文件会被覆盖掉,你得到的只能是最后一个df写入的结果文件通过创建一个ExcelWriter对象,可以解决上面的问题writer = pd.ExcelWriter(os.path.join(os.ge...

2019-04-30 11:30:17 7125 1

原创 ubuntu 装pandas,pip3遇到的坑

用python3建了个项目突然报错,没有pandas这个库:ImportError: No module named 'pandas',很奇怪python2.7 下有这个库,python3下没有,因为平时用pip install默认装在python2.7下,需要使用pip3命令安装在在python3下需要安装pip3,网上上搜了一下,很多人用这条指令:sudo pip insta...

2019-04-30 11:00:36 2481

原创 postgresql 的一些个人使用总结

POATGRESQL 个人使用中的一些总结:1.SQL语句:-复制表结构:CREATE TABLE schema名1.表名1 AS (SELECT * FROM schema名2.表名2 LIMIT 0);-一张表的查询结果更新到另一张表:INSERT INTO 表名1 (SELECT * FROM 表名2 WHERE ...);-一张表的查询结果加上两列一起更新到另一...

2019-04-25 15:52:55 650

转载 pip 安装 psycopg2 安装及错误处理

转载自:https://www.cnblogs.com/iminic/p/4092918.htmlpip 安装 psycopg2 安装及错误处理错误及现象Error: pg_config executable not found.Downloading/unpacking psycopg2Downloading psycopg2-2.5.4.tar.gz (682kB): 6...

2019-04-22 15:34:26 5951

原创 Linux下rm -rf删除文件夹报错_ Device or resource busy

Linux下rm -rf删除文件夹报错_ Device or resource busy1、错误信息rm: cannot remove `文件路径。。。。。': Device or resource busy2、错误原因      还有进程在运行3、解决办法      在终端执行 lsof +D 再加上无法删除文件的目录,把显示的PID都kill掉,然后再rm就可以了。...

2019-01-15 17:07:26 5403

原创 ubuntu 16.04 安装postgresql 10.3 ,解决安装错误E: Sub-process /usr/bin/dpkg returned an error code (1)

参考博客:1、https://blog.csdn.net/kwame211/article/details/839016422、http://www.cnblogs.com/swbzmx/p/7846180.html3、https://blog.csdn.net/shooke/article/details/75578303 环境及资源    Linux版本:ubuntu16...

2019-01-08 16:06:40 573

原创 ubuntu16.04 搭建git服务器简单教程

 相关参考:1、https://blog.csdn.net/xiemanR/article/details/534055562、https://blog.csdn.net/LMXQH/article/details/807921353、https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c...

2018-11-27 15:03:36 2388 1

原创 如何在VIM中编辑只读文件

1,以超级用户权限打开文件,即sudo vim ***2,编辑完文件后输入:w !sudo tee %

2018-11-09 12:19:00 11432

原创 redis连接时报错:# Creating Server TCP listening socket 127.0.0.1:6379: bind: Address already in use

解决方法:在linux终端命令行中运行:redis-cli127.0.0.1:6379> shutdownnot connected> exit再次输入:redis-server /usr/redis/redis.conf, 解决!

2018-11-07 14:24:28 5489

转载 mongo 报connect@src/mongo/shell/mongo.js:251:13错误的解决方式

转载自:http://www.akaros.cn/blog/mongo-%E6%8A%A5connectsrcmongoshellmongojs25113%E9%94%99%E8%AF%AF%E7%9A%84%E8%A7%A3%E5%86%B3%E6%96%B9%E5%BC%8F/1. 删除数据data/db目录下的mongod.lock . 一般情况mongo默认的数据文件的在/data/d...

2018-11-06 20:22:57 9737

转载 redis配置文件redis.conf详细说明

转载自:https://www.cnblogs.com/linjiqin/archive/2013/05/27/3102040.html# By default Redis does not run as a daemon. Use 'yes' if you need it.# Note that Redis will write a pid file in /var/run/redis.p...

2018-10-29 14:53:27 93

转载 ubuntu中vim多行注释与取消注释

ubuntu中vim多行注释与取消注释以注释为#为例注释多行:1)将光标置于第一行要注释的地方, 按下Ctrl-V(or CtrlQ for gVim)进入VISUAL BLOCK模式,移动光标选中所有所需注释的行;2)依次按下大写I(shift+i),#,Esc, vim会在所选行的每行行首添加#。对于debian/ubuntu默认使用的vim版本,上述方法不起作用。需将第2...

2018-10-29 14:36:05 8785

原创 Python编程语言下使用dict(字典)和set(集合)

字典 dict:  1,字典是一种可变的容器,可以存储任意类型的数据  2,字典中每个数据都是用‘键’(key)进行索引,而不像序列可以用下标进行索引  3,字典的数据没有先后顺序关系,字典的存储是无序的  4,字典中的数据以键(key)-值(value)队进行映射存储  5,字典的键不能重复,且只能用不可变类型作为字典的键。字典的字面值表示方式;  用{}括起来,以冒号(:)分割键-值对,各键值...

2018-05-12 17:10:01 7180 2

原创 Python编程语言下使用list和tuple

列表 list  列表由一系列特定元素组成,元素和元素间没有任何关联关系,但有先后顺序关系  列表是一种容器  列表是序列的一种  列表是可以被改变的序列python中的序列类型简介(sequence)  字符串 str  列表 list   元祖 tuple  字节串 bites  字节数组 bytearray创建空列表的字面值:L = []   #L绑定空列表创建非空列表:    L=[1,2...

2018-05-12 17:02:10 614

原创 Python编程语言下的条件判断以及for循环,while循环

if 语句:   作用:让程序根据条件选择性的执行某条语句或某些语句   说明:if语句又叫条件语句,也叫分支语句   语法:if 真值表达式1;             语句块1         elif 真值表达式2:             语句块2         elif 真值表达式3:             语句块3         ...         else:        ...

2018-05-12 16:51:34 2479 1

原创 Python编程语言下的字符串及编码

字符串 str:    作用:用来记录文本(文字)信息字符串的表示方法:    在非注释中,凡是用引号括起来的部分都是字符串     '单引号     "双引号     '''三单引号     """三双引号空字符串的字面值表示方式:     '     "     '''     """非空字符串的字面值表示方式:     'hello'     "hello"     '''hello''' ...

2018-05-12 16:42:22 749

原创 linux操作系统简介及shell命令介绍

Linux操作系统:1.特点:    开源:源代码开放(tips:GNU开源组织-开源代码协议:基于Linux外设扩展后也需开源)以Linux核心代码为基础发展操作系统的有红帽,ubuntu,Sun2.内核功能:(内核决定操作系统核心功能)    内存分配:如进程选择,cpu资源分配一、终端使用python终端:tips:     字体增大:“ctrl”+“shift”+“+”,     字体减小...

2018-05-12 16:25:10 325

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除