规则引擎在数据分析中的应用

最新推荐文章于 2023-03-05 12:23:53 发布

置顶 wangmengqz

最新推荐文章于 2023-03-05 12:23:53 发布

阅读量3.6k

点赞数 1

分类专栏： JAVA、规则引擎技术文章标签：对象 Java server string 操作系统

JAVA、规则引擎技术专栏收录该内容

19 篇文章 1 订阅

订阅专栏

前言：规则引擎通过将业务规则和开发者的技术决策分离, 实现了动态管理和修改业务规则而又不影响软件系统的需求。以下通过实例对基于SQL 查询、自定义规则等一系列场景来说明规则引擎在数据分析中的应用。

在现代的企业级项目开发中, 商业决策逻辑或业务规则往往是硬编码嵌入在系统各处代码中的。但是外部市场业务规则是随时可能发生变化的, 这样开发人员必须时刻准备修改、更新系统,降低了效率。在这种背景下, 规则引擎应运而生,它通过将业务规则和开发者的技术决策分离, 实现了动态管理和修改业务规则而又不影响软件系统的需求。规则引擎具有广泛的应用领域, 同样也适用于数据分析和清洗。

假设我们有以下所示的一个表结构：

字段名	字段类型	说明
Name	Varchar（50）	姓名
Sex	Int	性别（1：男，0：女）
Department	Varchar（50）	部门
Salary	Int	工资

我们可能需要判断工资（Salary）字段不超过5000，按照此规则对该表中的数据进行清洗分析。

在数据分析中, 数据通常存储在如上所示的数据库表中，并且数据量也是比较大的。不可能一次性地导入到内存中供规则引擎使用。因此我们将通过规则引擎来分批读取并导入数据到内存中。

通过规则引擎进行数据分析将遵从以下所示的结构步骤：

1：需分析的数据

2：数据读取

3：将数据写入内存

4：规则库

5：规则引擎

6：分析结果

工作原理

首先从需要分析的数据库中按照批次读取数据，然后将读取的数据放入内存中，再按照规则对内存中的数据进行过滤分析，当内存中的数据分析完成后，清空内存中的数据，再读取下一批数据进来进行新一轮的分析，知道所有的数据处理完毕为止。

规则库

用于判断工资的业务内容我们用VisualRules提供的自然语言来进行表示，从而构成规则库，如下图所示：

上面的例子中，我们主要做的工作就是不停的判断人员的工资情况，大于5000就发出警告信息，并把该条数据提取出来，存放其他指定的地方。

下面我们再用一个实际的例子来做一个规则引擎的示例，说明如何用VisualRules来表示数据分析中的业务规则

在车管所电子档案系统中存在如下所示的数据表：PF_Table，用于记录档案图片的基本信息，我们对该表进行数据分析，忽略数据的完整性和有效性，我们只看有多少数据违反了以下说明的业务规则

fNo（指标）	paNo（页号）	Path（存放路径）	caNo（文件）	baNo（业务）
0217233	1	\2008032403\0217233\1.jpg	406101	2008032403
0217233	2	\2008032403\0217233\2.jpg	406102	2008032403
0217233	3	\2008032403\0217233\3.jpg	406105	2008032403
0217233	4	\2008032403\0217233\4.jpg	406108	2008032401

业务规则

1：path由三部分组成：业务类型，指标档案，页号。

业务类型：必须与baNo一致

指标档案：必须与fNo一致

页号：必须与paNo一致

我们可以把VisualRules对数据的分析简单概括为3个步骤

1：规则引擎从数据库中读取数据，并将读取的数据加载到内存中

2：取出内存中的数据进行分析，校验，处理

3：返回结果数据，将脏数据存储到指定的地方或者输出其他的文件和信息

第一步：取出数据

这个过程主要是通过规则引擎从数据库中读取数据，并把数据存放到内存中，VisualRules规则引擎提供一个独特的功能，就是允许规则引擎直接访问数据库，而不需要其他任何外部程序代码来协助。过程和传统的编码方式一样，编写SQL查询语句，然后执行查询，将结果存入内存。

对一个数据库进行分析的过程中，数据量肯定是巨大的，所以在编写SQL语句读取数据这个环节，我们要做一个说明：它可能需要DBA或者是专业的数据库操作人员来完成，这个和规则引擎没有关系，规则引擎只负责执行查询，以及后续动作。

在这里我仅用一个简单的查询语句来说明VisualRules提供的这个功能：

select top(10) * fromPF_Table

这表示我只读取PF_Table数据表的前10条数据来进行处理

通过规则引擎对象库中添加test.dbs数据库连接对象，然后通过该连接就可以直接访问数据库，编写查询，插入，删除，更新等语句

在SQL语句编写完成后，我们就可以在规则中执行该语句

在规则包中添加一条规则，然后将复制的执行SQL的方法粘贴到规则的那么中

这样，当规则运行的时候就会执行该查询，同时会把查询得到的数据放入到内存中，在这里我们定义了内存表这个规则对象，可以直观的看到内存中的数据

第二步：数据分析处理

数据加载到内存中以后，我们需要取出来用配置好的规则来进行分析过滤

因为path由3部分组成，每个部分都有对应的规则，所以我们先把这3部分按照特定的字符来分开，然后看第一部分是否与业务类型一致，第二部分是否与指标档案，第三部分的数字是否与页号一致，如果任何一个不一致，那么该条数据是错误的数据

wangmengqz

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
规则引擎在数据分析中的应用

前言：规则引擎通过将业务规则和开发者的技术决策分离, 实现了动态管理和修改业务规则而又不影响软件系统的需求。以下通过实例对基于SQL 查询、自定义规则等一系列场景来说明规则引擎在数据分析中的应用。在现代的企业级项目开发中, 商业决策逻辑或业务规则往往是硬编码嵌入在系统各处代码中的。但是外部市场业务规则是随时可能发生变化的, 这样开发人员必须时刻准备修改、更新系统,降低了效率。在这种背景下,
复制链接

扫一扫