- 博客(83)
- 资源 (1)
- 收藏
- 关注
原创 python import顺序问题
然后在main.py中分别按test1.py/test2.py/test3.py/test4.py ,test4.py/test2.py/test3.py/test1.py,test4.py/test3.py/test2.py/test1.py import,出来的结果和import的顺序果然是一样的!新建test1.py,内容为print('我是test1'),新建test2.py,内容为print('我是test2'),新建test3.py,内容为print('我是test3'),
2023-04-12 17:25:29
458
原创 yaml has no attribute fullloader
使用yaml读取yml文件的时候报错:yaml has no attribute fullloader,我的版本是0.2.5,查阅资料发现是版本过低,一是升级版本,可是由于在内网环境,升级比较麻烦,后来我发现所用的anaconda中有ruamel_yaml,那么将。
2023-04-12 17:08:12
346
原创 flink1.12.7+hudi 问题总结
版本:CDH-6.3.2, flink-1.12.7 ,hudi -0.9.0/0.10.0 1.CDH安装flink,需要自己制作parcel,制作过程略; 2.hudi可以自己编译::https://github.com/apache/hudi, 也可以自己下载:https://repo.maven.apache.org/maven2/org/apache/hudi/hudi-flink-bundle_2.12/0.9.0/hudi-flink-bundle_2.12-0.9.0.jar 3.将
2022-03-27 14:49:45
4868
转载 Spark中的Spark Shuffle详解
Spark中的Spark Shuffle详解 Shuffle简介 Shuffle描述着数据从map task输出到reduce task输入的这段过程。shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。因为在分布式情况下,reduce task需要跨节点去拉取其它节点上的map task结果。这一过程将会产生网络资源消耗和内存,磁盘IO的消耗。通常shuffle分为两部分:Map阶段
2022-03-21 23:45:20
910
原创 Dbeaver连接phoenix
1.切换到/opt/cloudera/parcels/PHOENIX-5.0.0-cdh6.2.0.p0.1308267/lib/phoenix,下载 phoenix-5.0.0-cdh6.2.0-client.jar这个jar包 2.下载客户端配置 里面有个phoenix-5.0.0-cdh6.2.0-client.jar下载下来 3.执行下面命令: jar -uf phoenix-5.0.0-cdh6.2.0-client.jar hbase-site.xml 将hbase-site.xm
2022-03-03 22:13:09
976
原创 ArangoDB
安装与启动请参考:https://www.cnblogs.com/sjjsxl/p/10687894.html 图遍历:https://blog.csdn.net/Missbelover/article/details/103228294 导入csv: arangoimp --file "C:\Users\xxxx\Desktop\2020_en.csv" --collection line...
2022-03-01 22:43:01
346
原创 kettle预览表字段中文显示乱码,值显示正常
kettle预览表字段中文显示乱码,值显示正常,如图: 我将mysql的默认编码,kettle的默认编码都设为utf8但还是没有用,我又配了一个oracle数据源发现oracle列名获取正常 解决方案:使用正常的中文即可(虽然预览的时候还是乱码) ...
2022-03-01 22:41:33
933
原创 Failed get of master address: java.io.IOException: Can‘t get master address from ZooKeeper; znode da
今天Hbase 出了点问题,Master无法正常启动,报错如下: 在网上查了很久的资料都没有解决,后来把日志往上翻,发现 其实日志里说的已经很清楚了,hdfs有问题,页面也有告警信息说块丢失,那么就好办了,执行命令hadoop fsck /hbase/MasterProcWALs -delete 然后重启Hbase,问题解决! ...
2022-02-27 22:59:10
3286
原创 未在已配置的存储库中找到任何parcel
在装cdh的时候遇到了问题,配置完parcel存储库以后页面提示:未在已配置的存储库中找到任何 parcel。尝试在更多选项下添加一个自定义存储库。否则,您可能只能继续使用包 默认的parcel存储库目录是 cd /opt/cloudera/parcels,发现这个目录是空的,切换到安装包目录, cp CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel.* /opt/cloudera/parcel-repo/ 成功以后应该会有这几个文件: 注意: .sha1需
2022-02-23 22:24:16
3999
2
原创 vmware centos7拓展磁盘空间
1.打开虚拟机找到磁盘空间,点进去扩容; 2.进入linux系统(我用的是centos7),使用fdisk -l 查看所有磁盘 3.fdisk /dev/sda,依次输入m,p(设置保持默认),w,命令含义如下图所示: note:很多博客说直接执行 fdisk /dev/sdb,但是会报 fdisk: 打不开 /dev/sdb: 没有那个文件或目录,这里执行的应该是fdisk -l看到的磁盘,这里只有sda这一块磁盘;两者的区别:sda是系统的第一块磁盘(sda1是第一个主分区,.
2022-02-16 20:17:36
4112
1
原创 notepad实现垂直标签
notepad自带的垂直标签功能很反人类,如图所示: 通过更改设置使文件目录正常垂直显示: 设置--------->首选项--------->标签栏勾选隐藏--------->文件列表勾选显示,然后文件就能正常的显示了 ...
2021-12-30 09:47:26
1079
原创 windows环境下发送socket包到Flink Streaming
这段时间一直在学习Flink,之前是通过虚拟机里的nc命令配合进行测试,这样很不方便,于是到网上找相应的解决方法,在此做下记录: 1.Windows没有自带的nc工具,需要下载netcat url:https://eternallybored.org/misc/netcat/ note:netcat会被杀毒软件误杀,需要关闭杀毒软件或加白名单 2.拷贝至c盘对应的用户目录下 3.进入cmd命令行,输入命令即可,如nc -L -p 777 -v 4.idea中执行所写的socketTe...
2021-07-08 16:15:51
487
原创 Flink爬坑
1.java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/windowing/assigners/WindowAssigner 2.
2021-06-08 21:06:42
432
2
原创 docker删除volume时报:volume is in use
首先停止对应的docker 镜像并将其删除,使用docker volume rm -f hadoop-vol时报如下错误: 重启docker 服务也没有用,后来发现volume都放在统一的目录下: 试着将目录删除:rm -rf /var/lib/docker/volumes/hadoop-vol: 成功! ...
2021-03-25 21:40:38
4719
转载 Cloudera Manager(简称CM)+CDH构建大数据平台
https://www.jianshu.com/p/1ed522c1ad1e
2020-11-19 10:02:02
345
1
原创 dbms_job.submit 例子
declare jobno binary_integer; begin dbms_job.submit(job=>jobno, what=>'test;', next_date=>sysdate); commit; end;
2020-08-28 11:25:30
528
原创 select语句造成死锁的原因
select语句使用非聚族索引查询产量信息,会对非聚族索引添加共享锁,由于非聚族索引上没有select的全部数据列,(所以会有书签查找出现,)需要查询产量表。查询产量表时,需要对产量表数据添加共享锁,需要等待Update语句更新完产量表后释放排他锁。即Select等待Update释放锁。 此时产量表上的Update/Insert语句更新产量信息的时候,会在聚族索引上做定位,添加排他锁和修改非聚族索引的信息,问题就出在修改非聚族索引信息的时候,需要对非聚族做索引添加排他锁。此时select语句已经在聚族索引
2020-08-21 08:38:10
1985
原创 Eclipse运行wordcount程序时报Connection timed out: no further information
Eclipse运行wordcount程序时报错,信息如下: 2020-08-15 16:12:32,580 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1367)) - map 0% reduce 0% 2020-08-15 16:12:52,739 WARN [LocalJobRunner Map Task Executor #0] hdfs.BlockReaderFactory (BlockReaderFactory.java:g...
2020-08-15 16:59:39
740
原创 ERROR 2002 (HY000): Can‘t connect to local MySQL server through socket ‘/tmp/mysql.sock‘ (2)
mysql启动报错:ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/tmp/mysql.sock' (2) 解决方法:建立软连接 1. find / |grep -i mysql.sock 2. ln -s /run/mysqld/mysqld.sock /tmp/mysql.sock
2020-08-03 10:37:06
355
1
转载 _head插件对elasticsearch 索引文档的增删改查
增删改查具体操作请参考:https://blog.csdn.net/bsh_csn/article/details/53908406 使用过程中报"error" : "Content-Type header [application/x-www-form-urlencoded] is not supported"错误, 解决方法:https://blog.csdn.net/qq_37275405/article/details/103628230 ...
2020-07-17 10:26:28
217
转载 oracle单元测试
https://www.oracle.com/technetwork/cn/tutorials/427932-zhs.htm
2020-07-03 15:41:39
404
原创 flink sql client
1.安装docker 2.安装docker-compose: pip install docker-compose 3.从 GitHub 上 clone ververica/sql-training 的 Docker 镜像 地址为:https://github.com/ververica/sql-training 4.切换到sql-training目录下,执行docker-compose up -d 5.docker ps查看镜像信息 6.进入flink sql client:docke...
2020-06-23 17:07:22
648
转载 mysql日期
select STR_TO_DATE('23-1-1982','%d-%m-%Y'); select DATE_FORMAT('1982-1-19','%Y-%m-%d'); SELECT STR_TO_DATE('30-Apr-2019','%d-%b-%Y'); 参考:https://www.cnblogs.com/ggjucheng/p/3352280.html
2020-06-02 15:29:36
193
原创 oracle 时区处理
select systimestamp, sys_extract_utc(systimestamp) utc, (to_timestamp_tz(to_char(systimestamp)) at time zone '00:00') manually_utc from dual; select from_tz(to_timestamp('20091101','YYYYMMDD'), 'America/Sao_Paulo') from dual; select f...
2020-05-21 15:56:29
575
转载 Oracle 关于统计信息
https://www.cnblogs.com/leohahah/p/9413513.html https://www.cnblogs.com/bicewow/p/11263378.html
2020-03-21 18:39:47
173
原创 solr
环境:cloudera-quickstart-vm-5.13.0-vmware solr版本:4.10.3 solr web操作: 插入数据: 导入csv格式文件: 1.cd /var/lib/solr/test_conf/conf 编辑schema.xml和solrconfig.xml这两个文件: schema.xml: <field name="id" ty...
2019-12-12 15:20:17
174
转载 HDP
https://www.cnblogs.com/sanyuanempire/p/6164116.html?utm_source=itdadao&utm_medium=referral
2019-12-11 10:56:53
397
原创 impala sql
Analytic: cume_dist() over (order by ) :全表小于或等于该记录的数据和总记录数的比 lag() over(partition by):取指定字段的上条记录的值 lead()over(partition by):取指定字段的下条记录的值 ntile(n)over(order by) :指定字段在所有记录里的1/n percent()over(part...
2019-11-28 10:29:30
587
原创 数据治理
数据治理:https://max.book118.com/html/2019/0103/5224304121001344.shtm 数据治理:https://max.book118.com/html/2019/0407/6135012241002021.shtm 数据中台:https://max.book118.com/html/2019/0916/7033165111002055.shtm ...
2019-11-11 15:01:02
301
原创 oracle 中in和exists处理null值的问题
in 在a in (b, c, d, ... , null)中, 括号里面的比较值里面存在NULL的话, 看其它比较值里面是否有跟a相等的值存在, 如果有则返回true, 否则返回false. not in 在 a not in (b, c, d,...,null)中,如果括号里面存在NULL的话, 则一律返回false. exists 在 exists的关联查询条件里面如果存在NULL的话...
2019-09-29 10:19:14
2291
1
原创 vm-quick-start使用
根据需要去官网下载所需cdh vm-quick-start镜像用虚拟机打开进入以后发现连接打不开: 其实是cloudera-manger没有启动,切换至如下目录:/home/cloudera, ./cloudera-manager --force --express,命令成功执行后如图所示: ,重新进入即可 常用端口:7180,8088,50070 hadoop e...
2019-09-15 21:08:15
422
原创 虚拟机安装Mysql
1.下载Mysql包,我这里用的是 mysql-5.7.25-linux-glibc2.12-x86_64.tar.gz; 2.使用脚本创建Mysql,具体参考 https://blog.csdn.net/zfyy1989/article/details/88873438 遇到的问题: 1)重置root密码 1.1,vi /etc/my.cnf [mysqld]下加入参数skip-gra...
2019-09-05 23:03:18
391
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅