大数据
大数据相关技术分析
一个处女座程序员
分享技术心得体会
展开
-
mysql单表2亿无索引数据,迁移到hive中并分区存放
无索引数据有几十G,用sqoop导入进度太慢,等待很久map还是0%所以才去分而治理1、先用mysql导入到csv文件中,顺序扫描并保存到文件中select * from t_swmx_sl into outfile 't_swmx_sl.csv' fields terminated by '\001'lines terminated by '\n';用时间:11:17->2、后加载到hadoop中3、创建hive表4、再加载到hive中5、创建hive分区表6、用原创 2021-10-14 15:53:27 · 681 阅读 · 0 评论 -
spark任务调度脚本 同一任务只能有一个在队列总执行
脚本会判断相同任务是否正在执行如果正在执行中,则忽略如果没有执行,根据用户传递参数执行任务. /etc/profile.d/hadoop.sh#runing=`ps aux | grep 'edu.xd.spark.FenXiShiShiZaiXiao' | grep -v grep | grep -v "bigdata.sh" | wc -l`runing=`ps aux | grep "$1" | grep -v grep | grep -v "bigdata.sh" | wc -l`ec原创 2021-10-09 17:39:41 · 347 阅读 · 0 评论 -
kafka常用命令
kafka常用命令创建toptickafka-topics.sh --bootstrap-server xnode1:9092,xnode2:9092,xnode3:9092,xnode4:9092 --create --replication-factor 1 --partitions 2 --topic stu_secWARNING: Due to limitations in metric names, topics with a period (’.’) or underscore (’原创 2021-10-05 10:19:29 · 327 阅读 · 0 评论 -
kafka集群安装--自动修改broker.id
安装kafka机群时,每个节点的broker.id不一样,如果一个个修改太麻烦,需要个好的方法,能够批量操作1,先修改好kafka的server.properties,默认的broker.id=0不用修改2,将修改好kafka的server.properties,同步到各节点上3,运行下面脚本程序(注:运行该脚本的节点,能够免密码登录其他几点)#!/bin/bash# 各节点的hostnamenodes=(xnode1 xnode2 xnode3 xnode4) echo " -------原创 2021-10-01 11:55:32 · 1344 阅读 · 0 评论 -
spark中DataFrame结果保存到mysql,表不存在会自动建立
本例子是在网上资源的完善,修改了网上资源的几处修复,加入新的函数package edu.xd.sparkimport java.sql.{Date, Timestamp}import java.util.Propertiesimport org.apache.log4j.Loggerimport org.apache.spark.sql.types._import org.apache.spark.sql.{DataFrame, Row, SQLContext}object Operat原创 2021-10-01 09:47:20 · 934 阅读 · 0 评论 -
一行命令解决电视盒子播放下载的电视剧无声音的问题
快过年了,防止无聊,下载了部经典喜剧在电视盒子上看看。现在片源越来越不好找了,好不容易下了部回家在机顶盒上一播放,傻眼了,有图像没声音,声道切换也不管用这点事情难不倒程序猿,ffprobe查看视频属性ffprobe 01.mkv结果ffprobe version 4.1.3 Copyright (c) 2007-2019 the FFmpeg develope...原创 2020-01-20 19:29:38 · 3053 阅读 · 0 评论