自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (6)
  • 收藏
  • 关注

原创 利用shell脚本统计git项目各开发者代码提交行数

如何衡量程序员KPI作为码农,大家或多或少都遇到过用代码量来衡量贡献度的,所以有时候需要自己去统计参与开发项目的代码提交行数,下面是我写的运行于Windows上的代码量统计脚本。脚本比较简单,我也就不多说了,放出来给需要的兄弟借鉴。

2023-12-22 16:44:14 116

原创 Flink CEP实现抢购黑名单需求实战

最近有个抢购黑名单的需求,产品为了增加对黄牛党的限制,想要在抢购活动期间能对潜在黄牛党进行干扰,从而保障普通用户的权益。于是我想到了适合实时风控场景的Flink CEP技术。通过对Flink官方文档的学习,我自己根据黑名单需求写了个Demo。黑名单需求简化后如下:在抢购活动前后,实时向后端系统反馈异常访问/购买的用户名单信息,具体实现逻辑是,BY渠道BY用户BY指定的URL统计用户访问指定URL的次数,选取访问次数>设定阈值的用户,并统计出这些用户访问指定URL时的IP切换次数。主要De

2020-12-04 18:52:35 511

原创 JanusGraph索引学习笔记

Indexing for Better PerformanceJanusGraph supports two different kinds of indexing to speed up query processing: graph indexes and vertex-centric indexes. Most graph queries start the traversal from a list of vertices or edges that are identified by thei

2020-11-19 15:56:15 971

原创 Oozie相关问题解决

一、执行Oozie命令报认证失败问题解决在安装Oozie服务的主机上将当初添加该主机进CDH集群时所生成的主机证书文件cm-auto-host_cert_chain.pem加入到该主机本地java秘钥库中,执行如下命令查看本地java秘钥库已添加的证书列表:cd $JAVA_HOME/jre/lib/securitykeytool -list -keystore cacertsEnter keystore password: changeit然后执行如下命令将CDH主机认证证书文件cm-a

2020-10-19 20:12:39 507

原创 Hive表小文件合并方法总结

Hive表小文件合并方法总结Hive表小文件产生原因

2020-10-19 18:57:34 4290 1

原创 Cloudera官方文档整理

要评估集群的硬件和资源分配,需要分析要在集群上运行的工作负载类型,以及将用于运行这些工作负载的CDH组件。您还应该考虑要存储和处理的数据的大小、工作负载的频率、需要运行的并发作业的数量以及应用程序所需的速度。在创建集群的体系结构时,需要在集群中的主机之间分配Cloudera Manager和CDH角色,以最大限度地利用资源。Cloudera提供了一些关于如何将角色分配给集群主机的指南。请参阅建议的群集主机和角色分布。将多个角色分配给主机时,将主机上每个角色的总资源需求(内存、CPU、磁盘)相加,以确定所需

2020-10-18 23:38:35 781 2

原创 如何对CDH集群上用户提交的作业进行监控告警

以CDH6.0.1版本为例,其资源管理框架是YARN,对于所有跑在YARN上的job(或app),都可以通过YARN的ResourceManager(简称RM)提供的restful API请求查询其运行状态。其GET请求命令格式如下:GET http(or https)://rm-http(or https)-address:port/ws/v1/cluster/apps返回结果为json格式的所有YARN记录的job信息。也可在上述命令的URL后面添加多个过滤参数,支持的过滤参数有如下几个:

2020-10-06 18:37:29 990

原创 如何向CDH集群添加主机节点

不知不觉干了两年多的大数据开发&运维,想当初入职时因为大数据组开发人手不足(就后来带我的一个人),把本来投的是运维开发岗的我调去了大数据组。虽然当时早就听说做大数据很有前途,但本硕学的都是通信工程的我完全没有基础啊不敢投啊,不知是人品好或是运气好该庆幸自己走了狗屎运转到了有“前途”的岗位,还是因为我的简历上有做Python开发的实习经历,反正我是体会到了大公司对应届校招生调岗是多么的随意。于是从这之后就开始了我的踩坑之旅。。。之所以来CSDN写博客了,是因为踩过的坑如果不记录是不知道什么时候又会再踩

2020-08-22 20:01:13 1794

原创 standalone模式下Spark运行过程总结

在standalone模式下运行时的消息通信过程分以下两个阶段:一、spark集群启动时的消息通信过程当启动master后(start-master.sh),随之启动各个worker(start-slave.sh spark://whz:7077)。worker节点向master节点发送注册消息如图所示master收到消息后需要对worker发送的信息进行验证记录。如果注册成功则发送RegisteredWorker消息给对应的worker,告诉worker已经完成注册,随后注册成..

2020-08-15 22:02:37 517

原创 Spark SQL如何对Hive分区表进行数据重分区

在CDH集群上搭建数据仓库时,通常使用CDH自带的Sqoop导数工具将业务数据表从MySQL导入到Hive。当MySQL表数据量很大时,应采用创建分区表每日进行增量同步的方式。但第一次用sqoop导入时我们一般会将历史数据统一放到某个分区下面,因为这样会比按天依次将历史数据导入到对应日期的分区节省时间。但这样会使得查询某个时间范围的历史数据效率很低,故需要再进行数据重分区。由于我们主要使用Spar...

2019-11-12 21:00:48 2386

原创 SparkSQL实现分区覆盖写

一、创建分区表scala> spark.sql("CREATE TABLE ptable(c1 int,c2 int) PARTITIONED BY (step string)")res1: org.apache.spark.sql.DataFrame = []二、向分区中插入测试数据scala> spark.sql("INSERT INTO TABLE ptable...

2019-11-04 16:36:09 4520

原创 如何对CDH集群的服务进行监控告警

众所周知,运维以Hadoop为主的大数据平台的难点在于其生态组件众多,各组件之间的交互关系复杂,问题排查修复困难。而Cloudera推出的CDH(Cloudera Distribution Hadoop)能够让用户通过其中的Cloudera Manager十分方便地部署和管理Hadoop集群。Cloudera官方提供了Cloudera Manager的Java和Python版本的API接口供用...

2019-11-03 20:35:43 6340 1

基于sift和SVM算法实现的手势识别 MATLAB GUI程序

基于sift和SVM算法实现的手势识别程序,用MATLAB GUI编写的,附有手势库,可拷贝至任何磁盘运行不必担心路径问题,但可能要求版本高一点的MATLAB软件

2015-11-06

无线信道传播建模与仿真MATLAB源代码

本资源是《无线信道传播建模与仿真》一书中十个章节的所有实例代码,对从事无线信道建模研究方向的通信专业研究生非常有用,可以通过对该实例代码的理解与运行调试增进对信道建模的理解,而且代码中还附有注释哦

2015-10-23

通信电子线路PDF课件

通信工程专业基础课《通信电子线路》的课堂PDF课件,内容很详细。

2015-09-06

用VB6.0和Access开发的数字图书馆管理系统

基于VB6.0和Access开发的数字图书馆管理系统,是大学本科课程《数据结构》的课程项目,该程序顺利通过验收,可用

2015-09-06

语音信号处理matlab GUI

通信工程 专业课数字信号处理 课程设计项目 基于matlabGUI的语音信号的处理

2014-05-02

vc++中队列deque和queue的使用

用vs2010实现的队列应用的程序,有注释,能让人轻松理解队列的使用方法

2014-05-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除