39、数据处理系统与Unix工具的批量处理应用

数据处理系统与Unix工具的批量处理应用

1. 数据系统分类与集成问题

在实际应用中,数据系统往往较为复杂。大型应用通常需要以多种不同方式访问和处理数据,单一数据库难以同时满足所有需求。因此,应用程序常结合使用多种不同的数据存储、索引、缓存、分析系统等,并实现数据在不同存储之间移动的机制。

数据存储和处理系统可大致分为两类:
- 记录系统 :也称为事实来源,保存数据的权威版本。新数据(如用户输入)首先写入此处,每个事实仅精确表示一次(通常为规范化表示)。若其他系统与记录系统存在差异,记录系统中的值即为正确值。
- 派生数据系统 :派生系统中的数据是对其他系统现有数据进行某种转换或处理的结果。若丢失派生数据,可从原始源重新创建。典型示例是缓存,若缓存中有数据则直接提供,若没有则回退到基础数据库。非规范化值、索引和物化视图也属于此类。在推荐系统中,预测摘要数据通常从使用日志派生而来。

虽然派生数据在技术上是冗余的,因为它重复了现有信息,但对于提高读取查询性能通常至关重要,且通常是非规范化的。可以从单个源派生多个不同的数据集,从而从不同“视角”查看数据。明确区分记录系统和派生数据系统有助于澄清系统中的数据流,使系统各部分的输入、输出及其相互依赖关系更加明确。大多数数据库、存储引擎和查询语言本身并非天生就是记录系统或派生系统,其分类取决于在应用中的使用方式。

2. 不同类型的数据处理系统

常见的数据处理系统可分为以下三种类型:
| 系统类型 | 特点 | 性能衡量指标 | 适用场景 |
| — | — | — | — |

先展示下效果 https://pan.quark.cn/s/a4b39357ea24 遗传算法 - 简书 遗传算法的理论是根据达尔文进化论而设计出来的算法: 人类是朝着好的方向(最优解)进化,进化过程中,会自动选择优良基因,淘汰劣等基因。 遗传算法(英语:genetic algorithm (GA) )是计算数学中用于解决最佳化的搜索算法,是进化算法的一种。 进化算法最初是借鉴了进化生物学中的一些现象而发展起来的,这些现象包括遗传、突变、自然选择、杂交等。 搜索算法的共同特征为: 首先组成一组候选解 依据某些适应性条件测算这些候选解的适应度 根据适应度保留某些候选解,放弃其他候选解 对保留的候选解进行某些操作,生成新的候选解 遗传算法流程 遗传算法的一般步骤 my_fitness函数 评估每条染色体所对应个体的适应度 升序排列适应度评估值,选出 前 parent_number 个 个体作为 待选 parent 种群(适应度函数的值越小越好) 从 待选 parent 种群 中随机选择 2 个个体作为父方和母方。 抽取父母双方的染色体,进行交叉,产生 2 个子代。 (交叉概率) 对子代(parent + 生成的 child)的染色体进行变异。 (变异概率) 重复3,4,5步骤,直到新种群(parentnumber + childnumber)的产生。 循环以上步骤直至找到满意的解。 名词解释 交叉概率:两个个体进行交配的概率。 例如,交配概率为0.8,则80%的“夫妻”会生育后代。 变异概率:所有的基因中发生变异的占总体的比例。 GA函数 适应度函数 适应度函数由解决的问题决定。 举一个平方和的例子。 简单的平方和问题 求函数的最小值,其中每个变量的取值区间都是 [-1, ...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值