- 博客(40)
- 收藏
- 关注
原创 windows环境使用PySpark遇到的一些问题
1、报错:PyCharm运行demo文件时报错:py4j.protocol.Py4JError: org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout does not exist in the JVM。解决方案:下载 mysql-connector-java-8.0.22.jar 文件,并复制到 java 安装目录下的 jre/lib/ext 文件夹下。首先,spark,hadoop,java的相关部署在这不作详细说明。
2023-03-23 17:24:50 580
转载 java hdfs kerberos 认证超时 Receive timed out
安装需要一些依赖:比如thrift,sasl,等等Command ""D:\Program Files\PYTHON\python.exe" -u -c "import setuptools, tokenize;__file__='c:\\users\\41590\\appdata\\local\\tem...
2022-09-30 17:02:47 2278
原创 【总结】Datax 同步数据到有kerberos认证的集群hdfs相关问题简单记录
参考链接:1、(2条消息) 记一次datax hdfswriter的踩坑记(上传文件到hdfs的坑)_果汁华的博客-CSDN博客_datax hdfswrite2、HdfsWriter写文件报错 · Issue #54 · alibaba/DataX (github.com)背景:需要使用Datax把业务数据从MySQL同步到hadoop集群1、json文件增加Kerberos认证的相关属性:查看$HADOOP_HOME/etc/hadoop/hdfs-site.xml,找到认证的相关.
2022-01-18 14:43:49 1846
原创 windows安装python2、python3共存
参考链接:https://blog.csdn.net/u013948858/article/details/77800663新公司使用windows做开发环境,在python版本选择与共存上花费了一点时间,这里简单记录一下:1、python的安装:官网下载,我选择的版本是python2.7.18和python3.9.6- 先安装了python2.7,安装目录在D盘(D:\install\Python\Python27)- 然后把目录下python.exe,phthonw.exe分别改成了
2022-01-11 09:34:45 676
原创 Error running query: Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci
背景:用mysql做多表联查时,遇到这种报错:Error running query: Illegal mix of collations (utf8mb4_general_ci,IMPLICIT) and (utf8mb4_0900_ai_ci解决:select * from tab1 a left join tab2 bon a.id=CONVERT(b.id USING utf8) COLLATE utf8_unicode_ci参考:https://stackoverflo..
2020-09-17 18:22:43 839
转载 python3.6报错ModuleNotFoundError: No module named ‘MySQLdb‘及解决方法
转自:https://blog.csdn.net/liubin9043/article/details/79905645from sqlalchemy import create_enginesqlcont = create_engine('mysql://root:root@127.0.0.1:3306/test?charset=utf8')报错:ModuleNotFoundError: No module named 'MySQLdb'解决方法:MySQLdb只支持Py..
2020-09-16 10:45:22 10359 1
原创 SQLAlchemy操作MySQL读取字段名称,类型,注释时,注释中文乱码解决方案
背景:想要读取MySQL里某张表的字段名称,类型,注释,在MySQL界面操作没有出现中文乱码,脚本调用查询sql时出现乱码:SELECT column_name, data_type, column_comment FROM information_schema.columns WHERE table_schema ='user' and table_name ='user_info' ...
2020-04-15 15:29:11 880
转载 docker打镜像报错ERROR: http://mirrors.aliyun.com/××: temporary error (try again later)
转载自:https://www.cnblogs.com/Qing-840/p/9958364.html如题:打镜像报错:解决方法:sudo vim /etc/default/docker添加以下内容:DOCKER_OPTS="--dns 114.114.114.114"然后重启Docker服务:sudo systemctl restart docker...
2020-04-03 16:28:05 3183 2
原创 【报错】Hive:cannot be cast to org.apache.hadoop.hive.serde2.objectinspector.PrimitiveObjectInspector
Hive使用过程遇到报错:Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.serde2.objectinspector.StandardStructObjectInspector cannot be cast to org.apache.hadoop.hive.serde2.objectinspector.Pri...
2020-03-25 14:38:13 8935
原创 【总结】Datax使用过程中遇到的问题
工作中使用到阿里的数据同步工具Datax,发现除了不支持redis作为读写的数据源之外,支持几乎所有常见类型的数据源在使用过程中遇到了几个问题,这里记录一下:ps:Datax的使用方法不做介绍。问题场景:1、数据从MySQL同步到 HDFS ,最终用hive进行使用,发现时间在同步过程中会出现八小时变动解决方法:mysqlreader的jdbcUrl参数指定时区,如:...
2020-03-20 20:03:52 3973 1
原创 【记录】Zookeeper使用过程遇到的问题
参考链接:https://blog.csdn.net/jiangxiulilinux/article/details/964335601、下载安装不多赘述:https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/zookeeper-3.5.6/2、配置conf:cd $ZOOKEEPER_HOME/confcp zoo_sampl...
2020-02-28 15:37:44 366
原创 【记录】安装hive过程遇到的问题
1、hadoop安装不做赘述;2、安装hive:①下载hive**.tar.gz到指定位置:wget http://mirror.bit.edu.cn/apache/hive/hive-2.3.6/apache-hive-2.3.6-bin.tar.gz②解压:tar -xvf apache-hive-2.3.6-bin.tar.gz③配置/etc/profile:...
2020-02-25 19:37:59 540
原创 【记录】SQOOP 使用过程中遇到的问题
------》HADOOP生态的安装不多做阐述,网上找资料即可------》SQOOP安装和配置不做阐述1、sqoop测试时 总是卡在SLF4J: Actual binding is of type [org.slf4j.impl.Log4jLoggerFactory]这一步,仔细一看log:SLF4J: Class path contains multiple SLF4J bi...
2020-02-25 11:06:09 858
原创 使用Datax插件时写入MySQL数据库遇到Could not retrieve transation read-only status server
问题描述:在使用Datax插件将数据从hive导入mysql时,发现写入MySQL报错 :Could not retrieve transation read-only status server查找解决方案时,发现有以下解决方案:1、修改 数据库的隔离级别,将REPEATABLE-READ修改为READ-COMMITED,----不适用,查看数据库的隔离级别,发现不需修改...
2020-02-24 10:21:08 1676
原创 robomongo启动报错,QStandardPaths: XDG_RUNTIME_DIR not set...Could not connect to any X display.
参考自:https://blog.csdn.net/weixin_33928467/article/details/88905592启动mongodb的可视化工具robomongo 时报错:××@localhost:/usr/local/robomongo/bin$ sudo ./robo3t QStandardPaths: XDG_RUNTIME_DIR not set, de...
2020-01-13 18:07:02 5864 1
原创 Spark 使用过程中遇见的问题
参考:https://blog.csdn.net/SCGH_Fx/article/details/72529132---------------------------------------------------------------------------------------------------------------------------------------------...
2019-12-18 16:55:39 3272 2
原创 hadoop系统搭建启动不了NameNode问题解决过程
照着网上诸多教程在本地搭建了一个伪分布式的Hadoop和spark,结果遇到了很多问题,虽然最后解决了任然觉得略坑,谨以此文聊作记录:一、背景:Ubuntu16.04二、步骤:1、自行安装JDK2、下载hadoop,spark安装包,安装位置自己定,我的路径在/usr/local/3、配置/etc/profile文件,export JAVA_HOME=/usr/local...
2019-12-13 20:25:08 1144
转载 ERROR 1698 (28000): Access denied for user 'root'@'localhost'安装MySQL时未设置密码,普通用户连接MySQL时需要密码进入的解决办法
1.使用sudo apt-get install mysql-server安装数据库,在安装的过程中未设置密码。2.在普通用户下使用命令mysql -uroot -p连接数据库,由于没有设置密码,所以在需要输入密码的时候,直接按了Enter键,从而导致了错误:ERROR 1698 (28000): Access denied for user 'root'@'localhost'解决办...
2019-10-18 14:27:16 407
原创 airflow踩坑记录
参考链接:https://www.cnblogs.com/jimtheman/p/8465754.html1、初始化airflow后,链接数据库改为postgresql,但是测试task时总是报错:(env) ××@pc:~/workspace/airflow$ airflow test example_bash_operator run_after_loop 2019-07-06sq...
2019-07-09 18:10:36 2277
转载 解决ubuntu下缺少sasl.h的问题
转自: https://blog.csdn.net/yj1499945/article/details/52776453只需要用:sudo apt-get install libsasl2-dev 即可
2019-05-10 17:35:58 929
原创 pandas:多个dataframe写入同一个excel, html
1,dataframe 写入excel:多个dataframe需要写入同一个excel时,每次使用df.to_excel(文件名)的形式去写,系统都会重新创建一个新的文件。也就意味着前面的文件会被覆盖掉,你得到的只能是最后一个df写入的结果文件通过创建一个ExcelWriter对象,可以解决上面的问题writer = pd.ExcelWriter(os.path.join(os.ge...
2019-04-30 11:30:17 7125 1
原创 ubuntu 装pandas,pip3遇到的坑
用python3建了个项目突然报错,没有pandas这个库:ImportError: No module named 'pandas',很奇怪python2.7 下有这个库,python3下没有,因为平时用pip install默认装在python2.7下,需要使用pip3命令安装在在python3下需要安装pip3,网上上搜了一下,很多人用这条指令:sudo pip insta...
2019-04-30 11:00:36 2481
原创 postgresql 的一些个人使用总结
POATGRESQL 个人使用中的一些总结:1.SQL语句:-复制表结构:CREATE TABLE schema名1.表名1 AS (SELECT * FROM schema名2.表名2 LIMIT 0);-一张表的查询结果更新到另一张表:INSERT INTO 表名1 (SELECT * FROM 表名2 WHERE ...);-一张表的查询结果加上两列一起更新到另一...
2019-04-25 15:52:55 650
转载 pip 安装 psycopg2 安装及错误处理
转载自:https://www.cnblogs.com/iminic/p/4092918.htmlpip 安装 psycopg2 安装及错误处理错误及现象Error: pg_config executable not found.Downloading/unpacking psycopg2Downloading psycopg2-2.5.4.tar.gz (682kB): 6...
2019-04-22 15:34:26 5951
原创 Linux下rm -rf删除文件夹报错_ Device or resource busy
Linux下rm -rf删除文件夹报错_ Device or resource busy1、错误信息rm: cannot remove `文件路径。。。。。': Device or resource busy2、错误原因 还有进程在运行3、解决办法 在终端执行 lsof +D 再加上无法删除文件的目录,把显示的PID都kill掉,然后再rm就可以了。...
2019-01-15 17:07:26 5403
原创 ubuntu 16.04 安装postgresql 10.3 ,解决安装错误E: Sub-process /usr/bin/dpkg returned an error code (1)
参考博客:1、https://blog.csdn.net/kwame211/article/details/839016422、http://www.cnblogs.com/swbzmx/p/7846180.html3、https://blog.csdn.net/shooke/article/details/75578303 环境及资源 Linux版本:ubuntu16...
2019-01-08 16:06:40 573
原创 ubuntu16.04 搭建git服务器简单教程
相关参考:1、https://blog.csdn.net/xiemanR/article/details/534055562、https://blog.csdn.net/LMXQH/article/details/807921353、https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c...
2018-11-27 15:03:36 2388 1
原创 redis连接时报错:# Creating Server TCP listening socket 127.0.0.1:6379: bind: Address already in use
解决方法:在linux终端命令行中运行:redis-cli127.0.0.1:6379> shutdownnot connected> exit再次输入:redis-server /usr/redis/redis.conf, 解决!
2018-11-07 14:24:28 5489
转载 mongo 报connect@src/mongo/shell/mongo.js:251:13错误的解决方式
转载自:http://www.akaros.cn/blog/mongo-%E6%8A%A5connectsrcmongoshellmongojs25113%E9%94%99%E8%AF%AF%E7%9A%84%E8%A7%A3%E5%86%B3%E6%96%B9%E5%BC%8F/1. 删除数据data/db目录下的mongod.lock . 一般情况mongo默认的数据文件的在/data/d...
2018-11-06 20:22:57 9737
转载 redis配置文件redis.conf详细说明
转载自:https://www.cnblogs.com/linjiqin/archive/2013/05/27/3102040.html# By default Redis does not run as a daemon. Use 'yes' if you need it.# Note that Redis will write a pid file in /var/run/redis.p...
2018-10-29 14:53:27 93
转载 ubuntu中vim多行注释与取消注释
ubuntu中vim多行注释与取消注释以注释为#为例注释多行:1)将光标置于第一行要注释的地方, 按下Ctrl-V(or CtrlQ for gVim)进入VISUAL BLOCK模式,移动光标选中所有所需注释的行;2)依次按下大写I(shift+i),#,Esc, vim会在所选行的每行行首添加#。对于debian/ubuntu默认使用的vim版本,上述方法不起作用。需将第2...
2018-10-29 14:36:05 8785
原创 Python编程语言下使用dict(字典)和set(集合)
字典 dict: 1,字典是一种可变的容器,可以存储任意类型的数据 2,字典中每个数据都是用‘键’(key)进行索引,而不像序列可以用下标进行索引 3,字典的数据没有先后顺序关系,字典的存储是无序的 4,字典中的数据以键(key)-值(value)队进行映射存储 5,字典的键不能重复,且只能用不可变类型作为字典的键。字典的字面值表示方式; 用{}括起来,以冒号(:)分割键-值对,各键值...
2018-05-12 17:10:01 7180 2
原创 Python编程语言下使用list和tuple
列表 list 列表由一系列特定元素组成,元素和元素间没有任何关联关系,但有先后顺序关系 列表是一种容器 列表是序列的一种 列表是可以被改变的序列python中的序列类型简介(sequence) 字符串 str 列表 list 元祖 tuple 字节串 bites 字节数组 bytearray创建空列表的字面值:L = [] #L绑定空列表创建非空列表: L=[1,2...
2018-05-12 17:02:10 614
原创 Python编程语言下的条件判断以及for循环,while循环
if 语句: 作用:让程序根据条件选择性的执行某条语句或某些语句 说明:if语句又叫条件语句,也叫分支语句 语法:if 真值表达式1; 语句块1 elif 真值表达式2: 语句块2 elif 真值表达式3: 语句块3 ... else: ...
2018-05-12 16:51:34 2479 1
原创 Python编程语言下的字符串及编码
字符串 str: 作用:用来记录文本(文字)信息字符串的表示方法: 在非注释中,凡是用引号括起来的部分都是字符串 '单引号 "双引号 '''三单引号 """三双引号空字符串的字面值表示方式: ' " ''' """非空字符串的字面值表示方式: 'hello' "hello" '''hello''' ...
2018-05-12 16:42:22 749
原创 linux操作系统简介及shell命令介绍
Linux操作系统:1.特点: 开源:源代码开放(tips:GNU开源组织-开源代码协议:基于Linux外设扩展后也需开源)以Linux核心代码为基础发展操作系统的有红帽,ubuntu,Sun2.内核功能:(内核决定操作系统核心功能) 内存分配:如进程选择,cpu资源分配一、终端使用python终端:tips: 字体增大:“ctrl”+“shift”+“+”, 字体减小...
2018-05-12 16:25:10 325
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人