loveProLife-CSDN博客

原创 Ambari2.7.0离线部署实战

一、下载安装包wget http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.0.0/ambari-2.7.0.0-centos7.tar.gzwget http://public-repo-1.hortonworks.com/HDP-UTILS-1.1.0.22/repos/centos7/HDP-UTIL...

2018-09-12 19:59:50 2638

原创 Mac10.14编译源码安装python3.7.9(同时解决openssl的问题)，基于此版本的python的virtualenv创建多个版本的python虚拟环境

//1.安装homebrew:/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"2.安装opensslbrew install openssl提示信息：==> Downloading https://homebrew.bintray.com/bottles/openssl%401.1-1.1.1h.mojave.bottle.tar.gz==..

2020-11-28 14:51:35 1154

原创 python多进程编程，如何让主进程和子进程都退出

python的多线程不是真正的多线程，所以使用多进程来实现高并发，比如训练模型读取数据时，但是kill只会杀死相应的进程ID，由于真实环境下子进程太多，一个一个去kill太麻烦，下面实现了只需要杀死主进程id即可同时使子进程也退出： 1.主进程和子进程的进程组ID是一样的，通过杀死进程组ID使主进程和子进程都退出 2.通过signal.signal(signal.SIGTERM,...

2020-05-06 20:10:36 7532

原创 hive表跨集群迁移

数据量比较大时，选择官方推荐方案distcp；1.创建目标数据库CREATE DATABASE IF NOT EXISTS xxxxxx LOCATION '/xxx/xxx/xxxx/xxxx.db';2.创建目标表，与原表信息博保持一致CREATE [EXTERNAL] TABLE `xxxx`(`uid` string,`channel` string)PARTI...

2018-11-16 17:29:02 3118

原创 pyspark拉取kafka数据

1.创建kafka的topic:./kafka-topics.sh --create --zookeeper xxxx:2181,xxxx:2181 --replication-factor 3 --partitions 3 --topic test2.pyspark上传具有spark客户端的节点vim ttt.py# encoding:utf-8from pyspark i...

2018-11-07 19:59:26 4943 3

原创 ambari下线机器节点流程步骤

1.下线前如果数据不均衡，需要均衡一下数据： hdfs dfsadmin -setBalancerBandwidth 67108864 hdfs balancer -threshold 52.ambari WEB管理平台操作NodeManager decommission3.ambari WEB管理平台操作HRegonServer decommission4.amb...

2018-10-11 10:43:58 2776

原创 flume消费kafka消息的offset查看方法

kafka版本1.0.1flume版本1.8.0 offset已经不在zookeeper存储了，存储在__consumer_offsets这个topic里面，具体哪个consumer group存储在这个topic的哪个partition里面通过下面计算方法确定：public class HelloWorld {public static void main(String[] ...

2018-09-27 20:12:22 3591

原创 pykafka压力测试代码

利用pykafka压力测试kafka，利用了多进程模式，根据自己机器调高进程数；with topic.get_producer(delivery_reports=True) as producer:如果使用上面的delivery_reports=True配置，能到达每秒几百兆的并发量，但是内存会持续暴涨；（此问题待解决）with topic.get_producer(sync=Tru...

2018-09-25 20:59:32 711

原创 centos查看在线用户及踢出方法

只需要在SHELL终端中输入命令：w 16:16:06 up 12 min, 1 user, load average: 0.14, 0.18, 0.13USER TTY FROM LOGIN@ IDLE JCPU PCPU WHATroot pts/0 192.168.2.45 16:15 6.00s ...

2018-09-18 16:19:07 6472

原创 hadoop2.7迁移到hadoop3.1，hive数据迁移

本文采用distcp的方式迁移数据，有关distcp如何使用，请移步如下链接自行学习：https://hadoop.apache.org/docs/r3.1.0/hadoop-distcp/DistCp.html关于distcp的几点说明：1.如果跨版本迁移，官网推荐源目标要使用webhftp协议（此处有坑，hadoop0.x和1.x时时hftp协议，hadoop2.x把hftp协议名...

2018-09-17 17:36:37 2139

原创阿里云部署hadoop之后50070,9000,8020等端口无法访问

1.登录阿里云控制台，在安全组添加规则，不限制端口；2.nc -v 阿里云公网IP 要测试的端口号；3.core-site.xml配置改成hdfs://0.0.0.0:90004.重启hdfs,yarn；5.netstat -ant | grep 要测试的端口号；每一步都成功后，即可从任意机器访问阿里云上的hadoop的各个服务！有问题加QQ群：8777...

2018-09-14 20:22:57 3460

原创 hadoop的Configured Capacity和DFS Remaining变成0的解决办法

Configured Capacity: 0 Configured Remote Capacity: 0 B DFS Used: 0 KB (0%) Non DFS Used: 0 GB DFS Remaining: 0 GB (0%) Block Pool Used: 0 KB (0%) DataNodes usages% (Min/M...

2018-09-13 20:32:50 5392

原创 hive或者pyspark或者别的程序需要与hive交互时，抛出权限异常的处理办法！

shell输入命令hive去连接，或者执行pyspark程序时，遇到以下错误，是因为遇到权限问题了，只需要在命令行执行以下shell，然后再执行hive命令或者执行pyspark程序就可以了：[root@ ~]$ export HADOOP_USER_NAME=hdfs根据下面异常里面的用户名去替换上面命令行的用户，实际情况以你的异常提示为准！ Exception in thr...

2018-09-12 20:18:20 830

pykafka压力测试代码(多进程模式)

2018-09-25

PHP代码规范

2017-03-13

gebo_admin完整网站后台模板

采用HTML5，bootstrap技术；兼容各个版本浏览器和移动设备；登陆注册会员中心等页面，一应俱全！

2015-06-23

选择时间插件

1.JQuery，bootstrap效果的时钟插件； 2.可以选择小时和分钟，不带日期选择； 3.选择时间范围的好帮手。

2015-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人