weixin_41956627-CSDN博客

原创记录一次脏数据导致flink任务失败的处理

这个报错，我记得以前有字符长度不够时，日志会记录是哪个字段长度不够导致的，但这次的日志没有指出具体是哪个字段有问题，排查发现应该不是mysql字段长度不够导致，后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据，有个日期相关的字段值为‘0024-01-16’（正确的应该为2024-01-16），这个格式写入mysql的timestamp类型字段会报错。是报错中的 CreateTime = 1705403370519，是为了抓取到报错的数据；可以看出，是写入mysql的过程出错。

2024-01-17 16:01:05 794

原创 pandas to_sql写入数据很慢

最开始没加dtype，发现to_sql很慢，几百条数据都要十多秒；而且有时候会有如下莫名其妙的报错，但仔细检查数据发现数据是没问题的。后面加上 to_sql 中加上 dtype 参数后，就快非常快了，上万条数据不到1s，而且同样的数据也没报错了。嫌pandas的to_sql方法过慢？神方法让你一分钟搞定。有个任务需要通过pandas向oracle写数据。这个好像是专门针对postgresql 的。解决问题时，发现几篇相关文章，记录下。Pandas to_sql详解。

2023-12-25 14:53:07 223

原创 flask请求get后再请求post会卡住

开发了个flask接口，有2个地址，一个是用get请求，一个是用post请求，本地测试的时候有如下现象: 启动接口后，如果一直都是请求post地址，就都正常，但是如果请求get地址后，再请求post地址，发现post请求被卡住了，此时再执行一下get请求，那个post请求会解除卡住，并被执行。参考：https://www.coder.work/article/1874374。当使用 python -m flask run …’ 中的代码未运行。使用 --with-threads 命令行开关。

2023-11-24 15:33:51 119

原创解决pip install kenlm失败的记录

本来准备装个pycorrector用用，依赖到 kenlm，一直报错装不上环境是linux。

2023-11-15 11:32:49 881

原创 cdh-yarn重启时间过长namenode失败

在有 NodeManager 的所有节点rm或mv 相关目录即可，重启yarn后会自动生成新目录。由于数据库环境迁移需重启yarn，发现yarn启动失败，NodeManager异常。yarn-nm-recovery 目录在配置中如下位置。

2023-10-20 11:50:52 64

转载 [转载]当心Python函数可变默认参数（list,set,dict…)的陷阱

Python的默认参数只在函数被定义时生成一次，而非每次调用时生成。这就意味着如果你使用可变默认参数并改变它，所有调用该函数的结果都是这个可变对象。

2023-01-09 15:39:56 85

原创解决linux环境python的PIL不支持处理webp格式图片的问题

解决linux环境python的PIL不支持处理webp格式图片的问题

2022-12-14 14:56:41 1250

转载 Python图片处理模块PIL操作方法（pillow）（转载）

Python图片处理模块PIL操作方法（pillow）

2022-12-02 10:16:45 750

原创 selenium.webdriver:记一次因配置问题导致WebDriverWait.until()查找的元素不存在时阻塞时间过长

webdriverwait.until(), driver.find_elements()

2022-11-15 11:04:56 1089

原创 python停止打印日志/重复打印日志

python log 日志重复打印

2022-07-14 15:01:59 1838 1

原创下载并解密的ts文件，发现一部分ts文件能播放，一部分不能播放

下载m3u8视频

2022-07-11 15:22:22 3459

原创 hive on spark报错:Client closed before SASL negotiation finished

hive on spark报错 Client closed before SASL negotiation finished

2022-07-04 09:32:22 1961

原创 python多进程报错 pickle

python多进程报错

2022-06-30 14:39:53 666

原创 python+appium多设备情况下指定设备，具体执行设备没按指定的来

python+appium多设备指定设备

2022-06-22 16:39:41 830

原创 scrapy爬图片遇到的坑

1、同一链接的图片被过滤，只下载了一次由于项目需要爬取商品信息，不同商品信息中可能用到同一张图片链接，都需要保存在各自商品对应的目录下，用ImagesPipeline实现了一个自定义的pipeline，发现下载下来的图片明显少于实际数量，排查后发现是相同链接的图片只下载了一次，保存在其中一个商品对应的目录下，其他商品下相同的图片就没下载了按理解应该是过滤掉了，不过我自定义了 get_media_requests 设置了dont_filter=True 依然没解决问题class MyImagesPipe

2021-04-01 16:12:01 544

原创 shell登录远程服务器执行命令

参考：https://blog.csdn.net/lumping/article/details/108185246https://blog.csdn.net/dblrxy417894/article/details/101590016https://blog.csdn.net/kevin_luan/article/details/38147349https://www.cnblogs.com/silentmuh/p/11907139.html大概如下sshpass -p 'password'

2021-01-29 10:32:05 949

原创 zeppelin集成presto

前提条件：zeppelin 和 presto 都已经安装部署完成操作步骤：获取presto的JDBC Driverpresto-jdbc 放入 zeppelin 的home目录下的 ./interpreter/jdbc/ 目录下在zeppelin添加interpret，选择jdbc类型接口关键配置，a. url填写presto的coordinator节点配置的url，如：jdbc:presto://192.xx.xx.xx:xxxxx/hiveb. user 填写 hivec.

2021-01-19 14:28:32 893 2

原创 presto整合hive问题记录

sqlinsert into hive.db.tb1 partition(dt)select aaa,bbb,dtfrom hive.db.tb2where xxx;Q1:报错： failed: line 1:38: mismatched input ‘partition’. Expecting: ‘(’, <query>解决办法：去掉sql中的partition(dt)，presto写的时候不需要加这个Q2:报错： failed: Catalog must

2021-01-14 09:37:40 9346

转载 hive insert into 插入数据后表中原来的数据丢失了

转载自 https://zhidao.baidu.com/question/689926317574498524.html您好，问下您是否在表名加了这种 `` 号？如果是建议你使用以下这种方式处理转义字符，可以正常insert into `DatabaseName`.`TableName`例如，insert into `db`.`tableA` select t.a, t.b from tableB t问题原因：使用`DatabaseName.TableName`时语法解析为OVERWRITE，该

2021-01-13 17:29:53 1678

原创 zeppelin适配hive2.1.1-cdh6.2.1

先参考这个https://blog.csdn.net/weixin_49165958/article/details/108681188其中把hive和hadoop的jar包要拷贝到zeppelin的interpreter/jdbc目录下对于cdh来说，这两个包在 /opt/cloudera/parcels/CDH/jars/ 这个目录下cp /opt/cloudera/parcels/CDH/jars/hadoop-common-3.0.0-cdh6.2.1 ./interpreter/jdbc

2021-01-08 11:35:59 334

原创提交flink任务报错java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

如题报错如下[chen@hd05 flink]$ ./flink-1.11.2/bin/flink run -m yarn-cluster -ys 8 -ynm myapp -yjm 1024 -ytm 512 -d -c user.spreadType.UserSpreadTypes ./UserRank-1.0-SNAPSHOT.jarSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:

2020-12-31 17:39:34 863

原创 flink可以sink到mysql但不能读出mysql数据

这几天写代码，用flink通过mysql-cdc 和 jdbc-connector 两种连接器对接mysql，发现能把kafka的数据写到mysql，但从mysql读数据写到print-connector表的时候就读不出来，也不报错代码如下：import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;

2020-11-27 17:11:36 1355 2

原创 flink-Table&sql-碰到的几个问题记录

flink-sql读取kafka数据（json）报错：Could not find any factories that implement ‘org.apache.flink.table.factories.DeserializationFormatFactory’ in the classpath.at org.apache.flink.table.factories.FactoryUtil.createTableSource(FactoryUtil.java:125)at org.apache

2020-11-24 11:03:07 6154

原创 flink-table-connector-mysql-sink,程序直接退出，不报错，数据没sink到mysql表中

参考官网写相关sql，准备实现kafka-flink-sink to mysql，发现不报错，数据也写不到sink的mysql表中-- register a MySQL table 'users' in Flink SQLCREATE TABLE MyUserTable ( id BIGINT, name STRING, age INT, status BOOLEAN, PRIMARY KEY (id) NOT ENFORCED) WITH ( 'connector' =

2020-10-29 10:31:32 693

原创 VMWare虚拟机与windows共享目录

1、先在虚拟机设置本地共享路径设置名称和windows主机路径对应关系2、登录虚拟机执行vmware-hgfsclient查看可共享的名称，就是第1步设置的名称[hadoop@node01 ~]$ vmware-hgfsclienttestdata3、执行vmhgfs-fuse .host:/名称 vm路径 -o allow_other[hadoop@node01 ~]$ vmhgfs-fuse .host:/testdata /data/win10datas/ -o allow_othe

2020-09-13 12:11:00 637

原创 sqoop从mysql导入数据到hive，密码比较复杂时要用英文单引号‘‘

上一篇博客同样的问题 https://blog.csdn.net/weixin_41956627/article/details/108238467今天发现mysql密码比较复杂，有个 & 符合，要用单引号括起来才行不处理的时候密码被拆了，两个报错如下：1、未找到命令，2、把mysql指到本地地址了其中192.168.x.x是远程mysql的地址，172.xxx是sqoop本地地址[root@hd01 lib]# sqoop list-databases --connect jd

2020-08-27 13:53:47 449

原创操作hdfs文件目录无权限

经常碰到操作hdfs文件时没权限Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x[root@hd01 lib]# hadoop dfs -mkdir -p /user/share/driverWARNING: Use of this script to execute dfs is deprecated.WARNING: Attempting to execute rep

2020-08-27 11:00:21 1938

原创 hue中执行sqoop计划失败，报错oozie 申请yarn资源失败

hue中执行sqoop计划失败，报错oozie 申请yarn资源失败Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException): Invalid resource request! Cannot allocate containers as requested resource is greater than maximum all

2020-08-26 18:34:53 789

原创 sqoop1.4.7-cdh6.2.1设置了连接远程的mysql，但报错连接本地mysql数据库失败

使用sqool时，list-databases或import，设置的是远程的数据库地址，但报错本地数据库连接不上，如下sqoop list-databases --connect jdbc:mysql://192.168.x.x:xxxx/?useSSL=false --username **** --password "******"其中 192.168.x.x 是远程的数据库ip地址，172.20.x.x 是sqoop安装的节点ip地址后面发现把 --password 换成 -P 就可以了

2020-08-26 14:07:00 442 2

原创 cm6.2.1启动失败cloudera-scm-server失败

启动失败cloudera-scm-server失败[root@hd01 cloudera-scm-server]# systemctl status cloudera-scm-server● cloudera-scm-server.service - Cloudera CM Server Service Loaded: loaded (/usr/lib/systemd/system/cloudera-scm-server.service; enabled; vendor preset: disab

2020-08-25 09:26:53 1704

原创 CM6.2.1-集群检查-缺少用户/用户组

CDH6.2.1-集群检查-缺少hdfs、mapred等用户/用户组原因：安装cm时，系统关键文件被锁定了，导致安装时创建相关用户失败了解决方案：1、参考解锁相关文件： https://www.cnblogs.com/mihoutao/p/13255918.html如：chattr -i /etc/passwd /etc/shadow /etc/gshadow2、根据cm的检查结果，看缺失什么用户/用户组就创建一下我的大概如下：# 应该是给进程用的用户，不需要登录和创建home目录，我这

2020-08-25 09:04:50 363

原创 centos7安装cm6.2.1集群检查报错

报错如下检查器在以下主机上的结果失败…查看详细信息hd02: org.codehaus.jackson.JsonParseException: Unexpected character (’<’ (code 60)): expected a valid value (number, String, array, object, ‘true’, ‘false’ or ‘null’) at [Source: java.io.StringReader@14be29b1; line: 1, colum

2020-08-24 18:02:14 397

weixin_41956627的博客