自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 记录一次脏数据导致flink任务失败的处理

这个报错,我记得以前有字符长度不够时,日志会记录是哪个字段长度不够导致的,但这次的日志没有指出具体是哪个字段有问题,排查发现应该不是mysql字段长度不够导致,后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据,有个日期相关的字段值为‘0024-01-16’(正确的应该为2024-01-16),这个格式写入mysql的timestamp类型字段会报错。是报错中的 CreateTime = 1705403370519,是为了抓取到报错的数据;可以看出,是写入mysql的过程出错。

2024-01-17 16:01:05 794

原创 pandas to_sql写入数据很慢

最开始没加dtype,发现to_sql很慢,几百条数据都要十多秒;而且有时候会有如下莫名其妙的报错,但仔细检查数据发现数据是没问题的。后面加上 to_sql 中加上 dtype 参数后,就快非常快了,上万条数据不到1s,而且同样的数据也没报错了。嫌pandas的to_sql方法过慢?神方法让你一分钟搞定。有个任务需要通过pandas向oracle写数据。这个好像是专门针对postgresql 的。解决问题时,发现几篇相关文章,记录下。Pandas to_sql详解。

2023-12-25 14:53:07 223

原创 flask请求get后再请求post会卡住

开发了个flask接口,有2个地址,一个是用get请求,一个是用post请求,本地测试的时候有如下现象: 启动接口后,如果一直都是请求post地址,就都正常,但是如果请求get地址后,再请求post地址,发现post请求被卡住了,此时再执行一下get请求,那个post请求会解除卡住,并被执行。参考:https://www.coder.work/article/1874374。当使用 python -m flask run …’ 中的代码未运行。使用 --with-threads 命令行开关。

2023-11-24 15:33:51 119

原创 解决pip install kenlm失败的记录

本来准备装个pycorrector用用,依赖到 kenlm,一直报错装不上环境是linux。

2023-11-15 11:32:49 881

原创 cdh-yarn重启时间过长namenode失败

在有 NodeManager 的所有节点rm或mv 相关目录即可,重启yarn后会自动生成新目录。由于数据库环境迁移需重启yarn,发现yarn启动失败,NodeManager异常。yarn-nm-recovery 目录在配置中如下位置。

2023-10-20 11:50:52 64

转载 [转载]当心Python函数可变默认参数(list,set,dict…)的陷阱

Python的默认参数只在函数被定义时生成一次,而非每次调用时生成。这就意味着如果你使用可变默认参数并改变它,所有调用该函数的结果都是这个可变对象。

2023-01-09 15:39:56 85

原创 解决linux环境python的PIL不支持处理webp格式图片的问题

解决linux环境python的PIL不支持处理webp格式图片的问题

2022-12-14 14:56:41 1250

转载 Python图片处理模块PIL操作方法(pillow)(转载)

Python图片处理模块PIL操作方法(pillow)

2022-12-02 10:16:45 750

原创 selenium.webdriver:记一次因配置问题导致WebDriverWait.until()查找的元素不存在时阻塞时间过长

webdriverwait.until(), driver.find_elements()

2022-11-15 11:04:56 1089

原创 python停止打印日志/重复打印日志

python log 日志重复打印

2022-07-14 15:01:59 1838 1

原创 下载并解密的ts文件,发现一部分ts文件能播放,一部分不能播放

下载m3u8视频

2022-07-11 15:22:22 3459

原创 hive on spark报错:Client closed before SASL negotiation finished

hive on spark报错 Client closed before SASL negotiation finished

2022-07-04 09:32:22 1961

原创 python多进程报错 pickle

python多进程报错

2022-06-30 14:39:53 666

原创 python+appium多设备情况下指定设备,具体执行设备没按指定的来

python+appium多设备指定设备

2022-06-22 16:39:41 830

原创 scrapy爬图片遇到的坑

1、同一链接的图片被过滤,只下载了一次由于项目需要爬取商品信息,不同商品信息中可能用到同一张图片链接,都需要保存在各自商品对应的目录下,用ImagesPipeline实现了一个自定义的pipeline,发现下载下来的图片明显少于实际数量,排查后发现是相同链接的图片只下载了一次,保存在其中一个商品对应的目录下,其他商品下相同的图片就没下载了按理解应该是过滤掉了,不过我自定义了 get_media_requests 设置了dont_filter=True 依然没解决问题class MyImagesPipe

2021-04-01 16:12:01 544

原创 shell登录远程服务器执行命令

参考:https://blog.csdn.net/lumping/article/details/108185246https://blog.csdn.net/dblrxy417894/article/details/101590016https://blog.csdn.net/kevin_luan/article/details/38147349https://www.cnblogs.com/silentmuh/p/11907139.html大概如下sshpass -p 'password'

2021-01-29 10:32:05 949

原创 zeppelin集成presto

前提条件:zeppelin 和 presto 都已经安装部署完成操作步骤:获取presto的JDBC Driverpresto-jdbc 放入 zeppelin 的home目录下的 ./interpreter/jdbc/ 目录下在zeppelin添加interpret,选择jdbc类型接口关键配置,a. url填写presto的coordinator节点配置的url,如:jdbc:presto://192.xx.xx.xx:xxxxx/hiveb. user 填写 hivec.

2021-01-19 14:28:32 893 2

原创 presto整合hive问题记录

sqlinsert into hive.db.tb1 partition(dt)select aaa,bbb,dtfrom hive.db.tb2where xxx;Q1:报错: failed: line 1:38: mismatched input ‘partition’. Expecting: ‘(’, <query>解决办法:去掉sql中的partition(dt),presto写的时候不需要加这个Q2:报错: failed: Catalog must

2021-01-14 09:37:40 9346

转载 hive insert into 插入数据后表中原来的数据丢失了

转载自 https://zhidao.baidu.com/question/689926317574498524.html您好,问下您是否在表名加了这种 `` 号?如果是建议你使用以下这种方式处理转义字符,可以正常insert into `DatabaseName`.`TableName`例如,insert into `db`.`tableA` select t.a, t.b from tableB t问题原因:使用`DatabaseName.TableName`时语法解析为OVERWRITE,该

2021-01-13 17:29:53 1678

原创 zeppelin适配hive2.1.1-cdh6.2.1

先参考这个https://blog.csdn.net/weixin_49165958/article/details/108681188其中 把hive和hadoop的jar包要拷贝到zeppelin的interpreter/jdbc目录下对于cdh来说,这两个包在 /opt/cloudera/parcels/CDH/jars/ 这个目录下cp /opt/cloudera/parcels/CDH/jars/hadoop-common-3.0.0-cdh6.2.1 ./interpreter/jdbc

2021-01-08 11:35:59 334

原创 提交flink任务报错java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

如题报错如下[chen@hd05 flink]$ ./flink-1.11.2/bin/flink run -m yarn-cluster -ys 8 -ynm myapp -yjm 1024 -ytm 512 -d -c user.spreadType.UserSpreadTypes ./UserRank-1.0-SNAPSHOT.jarSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:

2020-12-31 17:39:34 863

原创 flink可以sink到mysql但不能读出mysql数据

这几天写代码,用flink通过mysql-cdc 和 jdbc-connector 两种连接器对接mysql,发现能把kafka的数据写到mysql,但从mysql读数据写到print-connector表的时候就读不出来,也不报错代码如下:import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;

2020-11-27 17:11:36 1355 2

原创 flink-Table&sql-碰到的几个问题记录

flink-sql读取kafka数据(json)报错:Could not find any factories that implement ‘org.apache.flink.table.factories.DeserializationFormatFactory’ in the classpath.at org.apache.flink.table.factories.FactoryUtil.createTableSource(FactoryUtil.java:125)at org.apache

2020-11-24 11:03:07 6154

原创 flink-table-connector-mysql-sink,程序直接退出,不报错,数据没sink到mysql表中

参考官网 写相关sql,准备实现kafka-flink-sink to mysql,发现不报错,数据也写不到sink的mysql表中-- register a MySQL table 'users' in Flink SQLCREATE TABLE MyUserTable ( id BIGINT, name STRING, age INT, status BOOLEAN, PRIMARY KEY (id) NOT ENFORCED) WITH ( 'connector' =

2020-10-29 10:31:32 693

原创 VMWare虚拟机与windows共享目录

1、先在虚拟机设置本地共享路径设置名称和windows主机路径对应关系2、登录虚拟机执行vmware-hgfsclient查看可共享的名称,就是第1步设置的名称[hadoop@node01 ~]$ vmware-hgfsclienttestdata3、执行vmhgfs-fuse .host:/名称 vm路径 -o allow_other[hadoop@node01 ~]$ vmhgfs-fuse .host:/testdata /data/win10datas/ -o allow_othe

2020-09-13 12:11:00 637

原创 sqoop从mysql导入数据到hive,密码比较复杂时要用英文单引号‘‘

上一篇博客 同样的问题 https://blog.csdn.net/weixin_41956627/article/details/108238467今天发现mysql密码比较复杂,有个 & 符合,要用单引号括起来才行不处理的时候密码被拆了,两个报错如下:1、未找到命令,2、把mysql指到本地地址了其中192.168.x.x是远程mysql的地址,172.xxx是sqoop本地地址[root@hd01 lib]# sqoop list-databases --connect jd

2020-08-27 13:53:47 449

原创 操作hdfs文件目录无权限

经常碰到操作hdfs文件时没权限Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x[root@hd01 lib]# hadoop dfs -mkdir -p /user/share/driverWARNING: Use of this script to execute dfs is deprecated.WARNING: Attempting to execute rep

2020-08-27 11:00:21 1938

原创 hue中执行sqoop计划失败,报错oozie 申请yarn资源失败

hue中执行sqoop计划失败,报错oozie 申请yarn资源失败Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException): Invalid resource request! Cannot allocate containers as requested resource is greater than maximum all

2020-08-26 18:34:53 789

原创 sqoop1.4.7-cdh6.2.1设置了连接远程的mysql,但报错连接本地mysql数据库失败

使用sqool时,list-databases或import,设置的是远程的数据库地址,但报错本地数据库连接不上,如下sqoop list-databases --connect jdbc:mysql://192.168.x.x:xxxx/?useSSL=false --username **** --password "******"其中 192.168.x.x 是远程的数据库ip地址,172.20.x.x 是sqoop安装的节点ip地址后面发现把 --password 换成 -P 就可以了

2020-08-26 14:07:00 442 2

原创 cm6.2.1启动失败cloudera-scm-server失败

启动失败cloudera-scm-server失败[root@hd01 cloudera-scm-server]# systemctl status cloudera-scm-server● cloudera-scm-server.service - Cloudera CM Server Service Loaded: loaded (/usr/lib/systemd/system/cloudera-scm-server.service; enabled; vendor preset: disab

2020-08-25 09:26:53 1704

原创 CM6.2.1-集群检查-缺少用户/用户组

CDH6.2.1-集群检查-缺少hdfs、mapred等用户/用户组原因:安装cm时,系统关键文件被锁定了,导致安装时创建相关用户失败了解决方案:1、参考解锁相关文件: https://www.cnblogs.com/mihoutao/p/13255918.html如:chattr -i /etc/passwd /etc/shadow /etc/gshadow2、根据cm的检查结果,看缺失什么用户/用户组就创建一下我的大概如下:# 应该是给进程用的用户,不需要登录和创建home目录,我这

2020-08-25 09:04:50 363

原创 centos7安装cm6.2.1集群检查报错

报错如下检查器在以下主机上的结果失败…查看详细信息hd02: org.codehaus.jackson.JsonParseException: Unexpected character (’<’ (code 60)): expected a valid value (number, String, array, object, ‘true’, ‘false’ or ‘null’) at [Source: java.io.StringReader@14be29b1; line: 1, colum

2020-08-24 18:02:14 397

kenlm,配套python3.7, linux

这玩意比较难装,各种失败,好不容易装成功一次,就把whl文件搞下来了。

2023-11-21

编译好了的yanagishima20.0

亲测可用

2021-01-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除