自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走走看看

专注+坚持

  • 博客(13)
  • 资源 (4)
  • 收藏
  • 关注

原创 Ambari2.7.0离线部署实战

一、下载安装包wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gzwget http://public-repo-1.hortonworks.com/HDP-UTILS-1.1.0.22/repos/centos7/HDP-UTIL...

2018-09-12 19:59:50 2488

原创 Mac10.14编译源码安装python3.7.9(同时解决openssl的问题),基于此版本的python的virtualenv创建多个版本的python虚拟环境

//1.安装homebrew:/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.安装opensslbrew install openssl提示信息:==> Downloading https://homebrew.bintray.com/bottles/openssl%401.1-1.1.1h.mojave.bottle.tar.gz==..

2020-11-28 14:51:35 895

原创 python多进程编程,如何让主进程和子进程都退出

python的多线程不是真正的多线程,所以使用多进程来实现高并发,比如训练模型读取数据时,但是kill只会杀死相应的进程ID,由于真实环境下子进程太多,一个一个去kill太麻烦,下面实现了只需要杀死主进程id即可同时使子进程也退出: 1.主进程和子进程的进程组ID是一样的,通过杀死进程组ID使主进程和子进程都退出 2.通过signal.signal(signal.SIGTERM,...

2020-05-06 20:10:36 7126

原创 hive表跨集群迁移

数据量比较大时,选择官方推荐方案distcp;1.创建目标数据库CREATE DATABASE IF NOT EXISTS xxxxxx LOCATION '/xxx/xxx/xxxx/xxxx.db';2.创建目标表,与原表信息博保持一致CREATE [EXTERNAL] TABLE `xxxx`(`uid` string,`channel` string)PARTI...

2018-11-16 17:29:02 2988

原创 pyspark拉取kafka数据

1.创建kafka的topic:./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --topic test2.pyspark上传具有spark客户端的节点vim ttt.py# encoding:utf-8from pyspark i...

2018-11-07 19:59:26 4772 3

原创 ambari下线机器节点流程步骤

1.下线前如果数据不均衡,需要均衡一下数据:    hdfs dfsadmin -setBalancerBandwidth 67108864    hdfs balancer -threshold 52.ambari WEB管理平台操作NodeManager decommission3.ambari WEB管理平台操作HRegonServer decommission4.amb...

2018-10-11 10:43:58 2451

原创 flume消费kafka消息的offset查看方法

kafka版本1.0.1flume版本1.8.0 offset已经不在zookeeper存储了,存储在__consumer_offsets这个topic里面,具体哪个consumer group存储在这个topic的哪个partition里面通过下面计算方法确定:public class HelloWorld {public static void main(String[] ...

2018-09-27 20:12:22 3470

原创 pykafka压力测试代码

利用pykafka压力测试kafka,利用了多进程模式,根据自己机器调高进程数;with topic.get_producer(delivery_reports=True) as producer:如果使用上面的delivery_reports=True配置,能到达每秒几百兆的并发量,但是内存会持续暴涨;(此问题待解决)with topic.get_producer(sync=Tru...

2018-09-25 20:59:32 630

原创 centos查看在线用户及踢出方法

只需要在SHELL终端中输入命令:w 16:16:06 up 12 min,  1 user,  load average: 0.14, 0.18, 0.13USER     TTY      FROM             LOGIN@   IDLE   JCPU   PCPU WHATroot    pts/0    192.168.2.45     16:15    6.00s  ...

2018-09-18 16:19:07 6284

原创 hadoop2.7迁移到hadoop3.1,hive数据迁移

本文采用distcp的方式迁移数据,有关distcp如何使用,请移步如下链接自行学习:https://hadoop.apache.org/docs/r3.1.0/hadoop-distcp/DistCp.html关于distcp的几点说明:1.如果跨版本迁移,官网推荐源目标要使用webhftp协议(此处有坑,hadoop0.x和1.x时时hftp协议,hadoop2.x把hftp协议名...

2018-09-17 17:36:37 1978

原创 阿里云部署hadoop之后50070,9000,8020等端口无法访问

1.登录阿里云控制台,在安全组添加规则,不限制端口;2.nc -v 阿里云公网IP 要测试的端口号;3.core-site.xml配置改成hdfs://0.0.0.0:90004.重启hdfs,yarn;5.netstat -ant  | grep 要测试的端口号; 每一步都成功后,即可从任意机器访问阿里云上的hadoop的各个服务!    有问题加QQ群:8777...

2018-09-14 20:22:57 3296

原创 hadoop的Configured Capacity和DFS Remaining变成0的解决办法

Configured Capacity: 0 Configured Remote Capacity: 0 B DFS Used: 0 KB (0%) Non DFS Used: 0 GB DFS Remaining: 0 GB (0%) Block Pool Used: 0 KB (0%) DataNodes usages% (Min/M...

2018-09-13 20:32:50 5028

原创 hive或者pyspark或者别的程序需要与hive交互时,抛出权限异常的处理办法!

shell输入命令hive去连接,或者执行pyspark程序时,遇到以下错误,是因为遇到权限问题了,只需要在命令行执行以下shell,然后再执行hive命令或者执行pyspark程序就可以了:[root@ ~]$ export HADOOP_USER_NAME=hdfs根据下面异常里面的用户名去替换上面命令行的用户,实际情况以你的异常提示为准! Exception in thr...

2018-09-12 20:18:20 716

pykafka压力测试代码(多进程模式)

pykafka压力测试代码(多进程模式)

2018-09-25

PHP代码规范

PHP代码规范

2017-03-13

选择时间插件

1.JQuery,bootstrap效果的时钟插件; 2.可以选择小时 和 分钟,不带日期选择; 3.选择时间范围的好帮手。

2015-06-24

gebo_admin完整网站后台模板

采用HTML5,bootstrap技术; 兼容各个版本浏览器和移动设备; 登陆注册会员中心等页面,一应俱全!

2015-06-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除