- 博客(36)
- 资源 (1)
- 收藏
- 关注
原创 hive表格统计信息不准确
有个hive分区表,orc存储格式,有个分区,查询结果是0, 但查询又能查到数据,去hdfs对应目录下查看,也能看到有数据文件。
2024-09-10 09:13:24 279
原创 记录一次脏数据导致flink任务失败的处理
这个报错,我记得以前有字符长度不够时,日志会记录是哪个字段长度不够导致的,但这次的日志没有指出具体是哪个字段有问题,排查发现应该不是mysql字段长度不够导致,后来在网上看可能是时间类型字段不匹配也会导致此报错。最终抓取到异常数据,有个日期相关的字段值为‘0024-01-16’(正确的应该为2024-01-16),这个格式写入mysql的timestamp类型字段会报错。是报错中的 CreateTime = 1705403370519,是为了抓取到报错的数据;可以看出,是写入mysql的过程出错。
2024-01-17 16:01:05 1813
原创 pandas to_sql写入数据很慢
最开始没加dtype,发现to_sql很慢,几百条数据都要十多秒;而且有时候会有如下莫名其妙的报错,但仔细检查数据发现数据是没问题的。后面加上 to_sql 中加上 dtype 参数后,就快非常快了,上万条数据不到1s,而且同样的数据也没报错了。嫌pandas的to_sql方法过慢?神方法让你一分钟搞定。有个任务需要通过pandas向oracle写数据。这个好像是专门针对postgresql 的。解决问题时,发现几篇相关文章,记录下。Pandas to_sql详解。
2023-12-25 14:53:07 427
原创 flask请求get后再请求post会卡住
开发了个flask接口,有2个地址,一个是用get请求,一个是用post请求,本地测试的时候有如下现象: 启动接口后,如果一直都是请求post地址,就都正常,但是如果请求get地址后,再请求post地址,发现post请求被卡住了,此时再执行一下get请求,那个post请求会解除卡住,并被执行。参考:https://www.coder.work/article/1874374。当使用 python -m flask run …’ 中的代码未运行。使用 --with-threads 命令行开关。
2023-11-24 15:33:51 210
原创 cdh-yarn重启时间过长namenode失败
在有 NodeManager 的所有节点rm或mv 相关目录即可,重启yarn后会自动生成新目录。由于数据库环境迁移需重启yarn,发现yarn启动失败,NodeManager异常。yarn-nm-recovery 目录在配置中如下位置。
2023-10-20 11:50:52 116
转载 [转载]当心Python函数可变默认参数(list,set,dict…)的陷阱
Python的默认参数只在函数被定义时生成一次,而非每次调用时生成。这就意味着如果你使用可变默认参数并改变它,所有调用该函数的结果都是这个可变对象。
2023-01-09 15:39:56 109
原创 selenium.webdriver:记一次因配置问题导致WebDriverWait.until()查找的元素不存在时阻塞时间过长
webdriverwait.until(), driver.find_elements()
2022-11-15 11:04:56 1187
原创 hive on spark报错:Client closed before SASL negotiation finished
hive on spark报错 Client closed before SASL negotiation finished
2022-07-04 09:32:22 2252
原创 scrapy爬图片遇到的坑
1、同一链接的图片被过滤,只下载了一次由于项目需要爬取商品信息,不同商品信息中可能用到同一张图片链接,都需要保存在各自商品对应的目录下,用ImagesPipeline实现了一个自定义的pipeline,发现下载下来的图片明显少于实际数量,排查后发现是相同链接的图片只下载了一次,保存在其中一个商品对应的目录下,其他商品下相同的图片就没下载了按理解应该是过滤掉了,不过我自定义了 get_media_requests 设置了dont_filter=True 依然没解决问题class MyImagesPipe
2021-04-01 16:12:01 601
原创 shell登录远程服务器执行命令
参考:https://blog.csdn.net/lumping/article/details/108185246https://blog.csdn.net/dblrxy417894/article/details/101590016https://blog.csdn.net/kevin_luan/article/details/38147349https://www.cnblogs.com/silentmuh/p/11907139.html大概如下sshpass -p 'password'
2021-01-29 10:32:05 996
原创 zeppelin集成presto
前提条件:zeppelin 和 presto 都已经安装部署完成操作步骤:获取presto的JDBC Driverpresto-jdbc 放入 zeppelin 的home目录下的 ./interpreter/jdbc/ 目录下在zeppelin添加interpret,选择jdbc类型接口关键配置,a. url填写presto的coordinator节点配置的url,如:jdbc:presto://192.xx.xx.xx:xxxxx/hiveb. user 填写 hivec.
2021-01-19 14:28:32 944 2
原创 presto整合hive问题记录
sqlinsert into hive.db.tb1 partition(dt)select aaa,bbb,dtfrom hive.db.tb2where xxx;Q1:报错: failed: line 1:38: mismatched input ‘partition’. Expecting: ‘(’, <query>解决办法:去掉sql中的partition(dt),presto写的时候不需要加这个Q2:报错: failed: Catalog must
2021-01-14 09:37:40 10028
转载 hive insert into 插入数据后表中原来的数据丢失了
转载自 https://zhidao.baidu.com/question/689926317574498524.html您好,问下您是否在表名加了这种 `` 号?如果是建议你使用以下这种方式处理转义字符,可以正常insert into `DatabaseName`.`TableName`例如,insert into `db`.`tableA` select t.a, t.b from tableB t问题原因:使用`DatabaseName.TableName`时语法解析为OVERWRITE,该
2021-01-13 17:29:53 1825
原创 zeppelin适配hive2.1.1-cdh6.2.1
先参考这个https://blog.csdn.net/weixin_49165958/article/details/108681188其中 把hive和hadoop的jar包要拷贝到zeppelin的interpreter/jdbc目录下对于cdh来说,这两个包在 /opt/cloudera/parcels/CDH/jars/ 这个目录下cp /opt/cloudera/parcels/CDH/jars/hadoop-common-3.0.0-cdh6.2.1 ./interpreter/jdbc
2021-01-08 11:35:59 383
原创 提交flink任务报错java.lang.SecurityException: Invalid signature file digest for Manifest main attributes
如题报错如下[chen@hd05 flink]$ ./flink-1.11.2/bin/flink run -m yarn-cluster -ys 8 -ynm myapp -yjm 1024 -ytm 512 -d -c user.spreadType.UserSpreadTypes ./UserRank-1.0-SNAPSHOT.jarSLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:
2020-12-31 17:39:34 942
原创 flink可以sink到mysql但不能读出mysql数据
这几天写代码,用flink通过mysql-cdc 和 jdbc-connector 两种连接器对接mysql,发现能把kafka的数据写到mysql,但从mysql读数据写到print-connector表的时候就读不出来,也不报错代码如下:import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;import org.apache.flink.table.api.EnvironmentSettings;
2020-11-27 17:11:36 1506 2
原创 flink-Table&sql-碰到的几个问题记录
flink-sql读取kafka数据(json)报错:Could not find any factories that implement ‘org.apache.flink.table.factories.DeserializationFormatFactory’ in the classpath.at org.apache.flink.table.factories.FactoryUtil.createTableSource(FactoryUtil.java:125)at org.apache
2020-11-24 11:03:07 6479
原创 flink-table-connector-mysql-sink,程序直接退出,不报错,数据没sink到mysql表中
参考官网 写相关sql,准备实现kafka-flink-sink to mysql,发现不报错,数据也写不到sink的mysql表中-- register a MySQL table 'users' in Flink SQLCREATE TABLE MyUserTable ( id BIGINT, name STRING, age INT, status BOOLEAN, PRIMARY KEY (id) NOT ENFORCED) WITH ( 'connector' =
2020-10-29 10:31:32 761
原创 VMWare虚拟机与windows共享目录
1、先在虚拟机设置本地共享路径设置名称和windows主机路径对应关系2、登录虚拟机执行vmware-hgfsclient查看可共享的名称,就是第1步设置的名称[hadoop@node01 ~]$ vmware-hgfsclienttestdata3、执行vmhgfs-fuse .host:/名称 vm路径 -o allow_other[hadoop@node01 ~]$ vmhgfs-fuse .host:/testdata /data/win10datas/ -o allow_othe
2020-09-13 12:11:00 679
原创 sqoop从mysql导入数据到hive,密码比较复杂时要用英文单引号‘‘
上一篇博客 同样的问题 https://blog.csdn.net/weixin_41956627/article/details/108238467今天发现mysql密码比较复杂,有个 & 符合,要用单引号括起来才行不处理的时候密码被拆了,两个报错如下:1、未找到命令,2、把mysql指到本地地址了其中192.168.x.x是远程mysql的地址,172.xxx是sqoop本地地址[root@hd01 lib]# sqoop list-databases --connect jd
2020-08-27 13:53:47 498
原创 操作hdfs文件目录无权限
经常碰到操作hdfs文件时没权限Permission denied: user=root, access=WRITE, inode="/user":hdfs:supergroup:drwxr-xr-x[root@hd01 lib]# hadoop dfs -mkdir -p /user/share/driverWARNING: Use of this script to execute dfs is deprecated.WARNING: Attempting to execute rep
2020-08-27 11:00:21 2042
原创 hue中执行sqoop计划失败,报错oozie 申请yarn资源失败
hue中执行sqoop计划失败,报错oozie 申请yarn资源失败Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException): Invalid resource request! Cannot allocate containers as requested resource is greater than maximum all
2020-08-26 18:34:53 861
原创 sqoop1.4.7-cdh6.2.1设置了连接远程的mysql,但报错连接本地mysql数据库失败
使用sqool时,list-databases或import,设置的是远程的数据库地址,但报错本地数据库连接不上,如下sqoop list-databases --connect jdbc:mysql://192.168.x.x:xxxx/?useSSL=false --username **** --password "******"其中 192.168.x.x 是远程的数据库ip地址,172.20.x.x 是sqoop安装的节点ip地址后面发现把 --password 换成 -P 就可以了
2020-08-26 14:07:00 556 2
原创 cm6.2.1启动失败cloudera-scm-server失败
启动失败cloudera-scm-server失败[root@hd01 cloudera-scm-server]# systemctl status cloudera-scm-server● cloudera-scm-server.service - Cloudera CM Server Service Loaded: loaded (/usr/lib/systemd/system/cloudera-scm-server.service; enabled; vendor preset: disab
2020-08-25 09:26:53 1793
原创 CM6.2.1-集群检查-缺少用户/用户组
CDH6.2.1-集群检查-缺少hdfs、mapred等用户/用户组原因:安装cm时,系统关键文件被锁定了,导致安装时创建相关用户失败了解决方案:1、参考解锁相关文件: https://www.cnblogs.com/mihoutao/p/13255918.html如:chattr -i /etc/passwd /etc/shadow /etc/gshadow2、根据cm的检查结果,看缺失什么用户/用户组就创建一下我的大概如下:# 应该是给进程用的用户,不需要登录和创建home目录,我这
2020-08-25 09:04:50 425
原创 centos7安装cm6.2.1集群检查报错
报错如下检查器在以下主机上的结果失败…查看详细信息hd02: org.codehaus.jackson.JsonParseException: Unexpected character (’<’ (code 60)): expected a valid value (number, String, array, object, ‘true’, ‘false’ or ‘null’) at [Source: java.io.StringReader@14be29b1; line: 1, colum
2020-08-24 18:02:14 447
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人