大数据
文章平均质量分 55
weixin_42934205
这个作者很懒,什么都没留下…
展开
-
hbase优化
hbase的优化笔记原创 2022-09-01 15:51:08 · 323 阅读 · 1 评论 -
Hbase 完全分布式安装
hbase 的完全分布式安装笔记,包含自己遇到的异常处理原创 2022-08-30 09:53:17 · 879 阅读 · 0 评论 -
hive on hbase
hive on hbase原创 2022-08-23 09:57:38 · 560 阅读 · 0 评论 -
spark执行优化--将依赖的jar包上传至hdfs上(spark3.1.1)
spark执行过程优化------将spark运行的jar包上传到HDFS上,避免在提交任务时因为spark程序包过大导致的占用运行时间和cpu资源起因是在提交spark任务的时候,因为服务器处于离线状态,好多的依赖包无法通过网络进行下载,所以打成的spark程序包比较大,大概在200~300MB之间,每次通过spark-on-yarn提交任务时,总是有一段时间将本地的spark程序上传到hdfs,占用了太多的网络资源以及cpu。所以,通过配置spark.yarn.archive和spark.yarn.原创 2021-10-26 11:13:21 · 3584 阅读 · 0 评论 -
记录一次hbase宕机之后,对问题的排查
hbase宕机问题排查起因是在使用spark将数据库数据写入到hbase时,发现在正常运行过程中,突然发现了有三个spark任务突然假死,通过查看日志发现程序卡在了如下的位置:2021-10-18 18:23:58,158 INFO jdbc.Utils: Supplied authorities: 192.168.xx.xx:100002021-10-18 18:23:58,158 INFO jdbc.Utils: Resolved authority: 192.168.xx.xx:1000020原创 2021-10-19 10:26:14 · 564 阅读 · 0 评论 -
sqoop(四) sqoop密码的四种提供方式
sqoop(四) sqoop密码的四种提供方式1.明文模式明文模式是最为简单的方式。我们可以在执行sqoop命令时使用--password参数,这样我们就可以直接在命令行中输入密码来访问数据库。sqoop list-databases --connect jdbc:mysql://your_mysql_host \--username your_mysql_username --password your_mysql_password2.交互模式交互模式是一种常用的提供密码的方式。在执行sq原创 2021-05-12 10:41:07 · 695 阅读 · 0 评论 -
sqoop(三) --m参数详解
sqoop(三) --m参数详解Sqoop并行化是启多个map task实现的,-m(或–num-mappers)参数指定map task数,默认是四个。当指定为1时,可以不用设置split-by参数,不指定num-mappers时,默认为4,当不指定或者num-mappers大于1时,需要指定split-by参数。并行度不是设置的越大越好,map task的启动和销毁都会消耗资源,而且过多的数据库连接对数据库本身也会造成压力。在并行操作里,首先要解决输入数据是以什么方式负债均衡到多个map的,即怎么原创 2021-05-12 10:36:58 · 2061 阅读 · 0 评论 -
sqoop(二) sqoop job
sqoop(二) sqoop jobsqoop job的常用参数: --create <job-id> 创建一个新的sqoop任务 --delete <job-id> 删除sqoop任务 --exec <job-id> 运行任务 --list 列出已经保存的sqoop任务列表 --show <job-id> 显示已保存的任务的参数 --verbose 工作时打印更多的信息创建sqoop job任务:sqoop job \--create原创 2021-05-12 10:35:00 · 270 阅读 · 0 评论