- 博客(29)
- 资源 (1)
- 收藏
- 关注
原创 分享构建属于自己的数字图书馆历程
起初为了方便获取书籍资源和方便的云同步,笔者选择了在用户体验和出版物数量上首屈一指的微信读书 APP,本人也贡献了至少5年的年费。但随着学习的深入,微信读书内的书籍逐渐无法满足我的阅读需要(尤其是外文图书的缺失),更致命的是,微信读书会在部分书籍的版权到期后选择下架书籍,就算已下载到设备里的书,也会随之消失,包括所有的批注和笔记。本文将为读者分享笔者最近半年来为实现阅读自由而构建的解决方案,希望能帮助书友们构建自己的数字图书馆。
2023-09-30 20:25:26 1672
原创 采集日志到hdfs的替代方案
大数据的采集日志到hdfs,然后通过mr写入hive ods表,一般都是企业数据采集的必经之路。大数据技术架构图_冰帆
2023-03-28 09:36:26 522
原创 清除挖矿病毒solr记录
solr病毒cpu占用100%,导致node节点挂掉,正常情况下,一般node节点不会挂掉,进入节点,发现果然node挂掉。
2023-02-20 10:17:55 1470 2
原创 hivesql失败告警发送到企业微信
离线数仓一般情况下都是通过写hive sql方式,利用调度系统再hive sql脚本,进行数仓分层,而调度系统是针对任务粒度的,而且一般都不支持发送到企业微信,针对这一痛点,本文利用hivehook 监听hive sql,将hive sql 的错误信息发送到kafka,另外python 程序实时kafka的数据,并发送到企业微信。流程图如下:Hook是一种在处理过程中拦截事件,消息或函数调用的机制。Hive hooks是绑定到了Hive内部的工作机制,提供了使用hive扩展和集成外部功能的能力。
2022-12-21 18:08:19 292
原创 使用clickhouse kafka表引擎消费kafka写入clickhouse
本文使用seatunnel 消费kafka数据写入clickhouse文章的kafka topic,用另一种方式写入clickhouse,也是练习下clickhouse kafka引擎。本文也默认已安装了kafka与clickhouse,这方面的安装文档很多,这里不做详述;前提准备 kafka :2.7.0;通过filebeat 写入kafka一、kafka数据格式使用kafka 命令查看数据格式:{},},},},"ecs": {},"host": {},"log": {
2022-12-15 17:50:47 2450
原创 Hbase RegionServer 挂掉自动重启
一、实现原理二、实现步骤1、python脚本2、代码解读 3、加入调度3.1、crontab定义3.2、重启crontab:总结前言hbase生产环境与hadoop集群共用资源,当hadoop资源cpu,带宽,内存占用较多,可能会导致regionserver挂掉,regionserver如果挂掉超过集群regionserver总个数的一半以上,那么集群就会出问题,所以迫切的需要regionserver挂掉自动恢复机制。 通过hbase的60010页面,查看hbase节点状态情况,
2022-12-07 12:31:37 1457
原创 grafana+prometheus监控tomcat项目
公司的web项目,有几个经常出现内存溢出宕机,正好搭建了prometheus和grafana,借助prometheus 插件实时监控tomcat内存情况,超过阈值告警发送到企业微信,实现自动化了解项目情况。
2022-11-24 11:25:18 1327 2
原创 获取全国统计用区划代码和城乡划分代码并写入数据库
2)如果中途失败,从mysql中读取上次写入最后一条记录处,继续开始。2、抓取过程中会经常连接失败导致。1)从第一级开始,依次抓取直到第五级,依次往复迭代,直接完成。3、失败后无法从失败处继续。看到2021年已经更新,正好拿原来的代码看看是否还能跑。3)防止多次连接导致,服务器判断为爬虫,ip禁用。那为了能顺利完成任务,需要对原有代码进行改造优化。若有需要完整代码或者mysql 导入脚本,请私我。代码测试:1、网站由原来的gbk转换为utf-8。4、python 核心代码。2、mysql 表结构。
2022-11-23 22:14:59 1455 8
原创 监控RocketMQ消费数据延迟告警发送企业微信
当前安装的rocketMQ 版本:3.4.6架构:2主2从阿里云主机安装RocketMQ 集群支持外网访问本文结合实际业务场景介绍了监控rocketmq消费者组消息堆积,将RocketMQ消费者组消费数据写入mysql,并向企业微信发送告警,作为抛砖引玉,大家可以结合自己场景,修改脚本做其他业务的监控。若有疑问,可以留言咨询。
2022-10-24 18:03:57 1297
原创 采集日志通过logstash写入hdfs
本文是大数据架构技术架构图的一个重要分支,大数据的采集服务一般通过web接口的上报方式,web接口,1、写到kafka,2、通过log4j日志文件,两种方案各有优劣,1、直接写kafka,项目依赖比较重,需要加kafka组件,2、写log4j日志的方式,不需要引入kafka组件,实际项目中通过log4j配置每小时滚动生成日志比较多,我是目前采用方案2,实际如下图。
2022-10-24 17:08:35 926 2
原创 superset安装使用说明
Apache Superset是一款由Python语言为主开发的开源时髦数据探索分析以及可视化的报表平台;她支持丰富的数据源,且拥有多姿多彩的可视化图表选择。官网 :https://superset.apache.org/国内支持的镜像站 :豆瓣:https://pypi.douban.com/simple/ 等开发语言:Python为主。
2022-10-24 14:59:31 1938
原创 阿里云主机安装RocketMQ 集群支持外网访问
背景:因公司迁移机房,需要在云主机上部署一套和本地一样的rocketMQ,原本计划直接购买云rocketMQ,云rocketMQ仅支持5.0.0,本地rocketMQ 是3.4.6,公司多个服务都使用本地的3.4.6版本的RocketMQ,所以需要再云上搭建一套简易版RocketMQ集群,并支持外网访问。准备:两台开通外网的云主机,带宽100M,16G内存,500G硬盘,两台成本1000+设置主机名,安装jdk,配置免密等等,前期的准备工作。因为是只有两台,所以规划是2m-noslave。
2022-10-20 11:42:51 1030
原创 grafana+prometheus监控hbase
链接:https://pan.baidu.com/s/1B2PWimrpCQ9MqOedPvXdaA?3、在grafana import hbase dashboard id:12722。在启动prometheus需要添加--web.enable-lifecycle。将文件放到Hbase 安装目录的conf 和lib下。具体有需要了解hbase其他配置的可以留言。2、prometheus添加hbase配置。1、准备工作hbase 1.2.0。即完成hbase的监控界面。
2022-10-20 11:06:07 990
原创 grafana监控nginx日志
用到组件:nginx ,filebeat,logstash,elasticsearch,grafana。需要注意的是最新的dashboard需要选择7.10+的elasticsearch,保存数据源后。2、filebeat 将nginx日志发往logstash,编辑filebeat.yml。本人喜欢研究新技术,并有丰富的大数据经验,希望和各位小伙伴探讨技术。看图还是比较炫酷的,那怎么才能够展示这样的大屏,咱们一步一步拆解。4、在kibana中查看elasticsearch数据。1、nginx代理设置。
2022-10-20 10:21:01 3492 4
原创 hadoop 新增数据节点,hbase 新增regionserver 步骤
hadoop新增节点datanode,hbase 新增regionserver步骤
2022-07-01 00:25:04 985
转载 java Gof 23种设计模式 -资料整理
以下是学习过程中查询的资料,别人总结的资料,比较容易理解(站在各位巨人的肩膀上,望博主勿究)创建型抽象工厂模式http://www.cnblogs.com/java-my-life/archive/2012/03/28/2418836.html工厂方法http://www.cnblogs.com/java-my-life/archive/2012/03/25/2416227.html...
2019-06-05 11:24:34 117
2018年全国统计用区划代码和城乡划分代码.sql
2020-01-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人