自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 pyspark streaming统计kafka埋点日志

需求背景:恶意注册账号疯狂发im消息,请求加商家微信。建立黑名单,凡是一天内访问200次详情页的加黑名单。 #启动zk nohup /usr/local/kafka-2.2.1/bin/zookeeper-server-start.sh /usr/local/kafka-2.2.1/config/zookeeper.properties & #启动kafka nohup /usr/l...

2019-06-24 21:15:37 787

原创 hadoop2.6修复openforwrite块

azkaban任务在日志解析时卡住,来公司后看到如下错误,fsck文件后发现一个块处于openforwrite状态,无法读。同事说昨天重启过节点,猜测是flume采集日志落盘在hdfs时未正常关闭块产生的问题,文件未损坏,只是租约未释放,2.7上有恢复命令(hdfs debug recoverlease),but我们用的是2.6,于是网上找了段代码,执行成功,特此留念。 代码: mk...

2019-06-06 14:20:07 926

原创 删集群跑路

硬件:nn2台,ha架构,每台96g内存,3块4t硬盘,千兆网卡。dn32台,每台192g内存,13块4t硬盘,万兆网卡。 软件:hadoop2.6,hive2.0,spark1.5,filebeat+flume+kafka+azkaban 公司起初就12台服务器,配置比较低,随着业务发展,数据量增多,入职至今的两年时间里公司做过很多硬件方面的升级,比如挂过盘,添过内存,升级过万...

2019-04-28 20:52:29 257

原创 仓库理论

仓库设计:--划分主题域 (用户(员工、客户)、帖子、注册、报名、结算、其他(推送、浏览、im))--增量、全量抽取明细数据--报名整合(拓展到用户、帖子,整合底层,节省后期计算资源成本,不必每次关联,依旧是明细粒度)宽表从字面意义上讲就是字段比较多的数据库表。通常是指业务主题相关的指标、维度、属性关联在一起的一张数据库表st_date,user_id,post_id,用户注册来源,用户报名来源,...

2018-04-26 09:52:01 773

原创 python爬取牛叉诊股信息

1.建表 mysql -u root -p 123456 create database test default character set utf8; create table stocks --a股 ( code varchar(10) comment '代码', name varchar(30) comment '名称', score varchar(5) comment '...

2018-04-06 23:54:09 487

原创 大数据环境搭建(测试)

安装包链接:https://pan.baidu.com/s/1YcIbXq2kwginm91YFm_XLw密码:bsxu centos6.5 + mysql5.1.73 + jdk1.7.0 + hadoop2.6.0 + hive2.0.0 + hbase1.2.2 + sqoop1.4.6 + flume1.6.0 + kafka0.8.2 + scala2.11.8 + spark1.5...

2017-07-05 23:30:28 764

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除