SSIS中的容器和数据流—数据转换（Transformations）续

最新推荐文章于 2020-04-30 14:15:48 发布

weixin_33973609

最新推荐文章于 2020-04-30 14:15:48 发布

阅读量260

点赞数

文章标签：数据库数据结构与算法

在上一篇随笔中列举了部分Data Flow中的数据转换任务，这里继续剩余的转换任务。

数据挖掘请求

数据挖掘任务是SSIS中一个很重要的任务，它的思想来源于一些算法。数据挖掘请求运行数据挖掘请求，并将结果输出到数据流。它还可以添加一些预测新列，一些应用场合如下列举：

根据已知的一些列，例如子女个数，家庭收入，配偶收入预测产生一个新列：这个人是否拥有住房
根据客户购物卡预测客户的购买意向
可以填充用户的调查问卷上没有填写的空白栏

涉及到的算法有：

微软时序算法
微软决策树算法
微软线性回归算法
贝叶斯算法

模糊排序和查找

模糊排序task可以找出数据中可能重复的行，例如可以找出包含“Main St.”和“Main Street”的两行然后将他们合并成一行。模糊查找任务可以检查数据输入并清除脏数据。模糊查找任务通常放在查找任务之后，查找任务找到匹配数据，然后通过模糊查找没有匹配的数据。

查找

查找转换任务的功能类似于SQL Server 2000中的Data Pump任务。例如，如果数据中有一列ZipCode来自于导入数据中的两列State和City，在映射表中可以使用查找转换。在SQL Server 2000中这种功能很笨拙，必须使用join关联查找这样会使运行速度减慢。如图4-25是查找任务的编辑界面。

图4-25

合并

合并转换可以将两个路径中的输入数据合并成一个输出。这种转换类似于Union All转换，它有一些限制：

合并之前数据必须排序，可以在此之前使用排序转换或者在数据源中使用ORDER BY语句
合并的元数据类型必须相同，例如CustomerID不能在一个路径中是数字型的但是在另一个路径中是字符类型的
如果有多于两个路径，需要选择Union All转换

编辑这种task，确保在两个路径中的数据时一致的，选择列的时候会弹出对话框提示数据合并到路径1还是路径2，如果选择合并到路径1，然后连接路径2。这样选择之后如图4-26最终将会从一个路径映射到另一个路径，有些路径的数据也可以忽略。

图4-26

连接合并

SSIS的一个目标就是使用任务，尽量保证不写任何代码，一个典型的例子就是连接合并。这种合并可以将两个输入进行内连接或者外连接然后选择性地输出。例如，在一个数据流中存储着包含EmployeeID的人力资源信息，在另一个数据流中存储着工资清单信息，可以对这两个路径进行连接，从人力资源信息中取得姓名，从工资清单信息中取得员工工资，然后从一个路径中输出。如图4-27，可以看到通过连接合并分别缺的员工名字和入职日期。

图4-27

注意：如果两个输入路径在同一个数据库，在OLE DB数据源中进行数据连接操作可能效率更高，如果在不同的数据库中可能效率后受到影响。这种连接合并在两个数据不是同一个数据库中或者不想编写代码时会很有用。

多点传送Multicast

如同它的名字一样多点传送可以将一个路径中的数据输出到多个路径，如图4-28你可能会使用这种转换将数据输出到多个路径中。编辑这种task，将它和输入源连接，然后将它和多个Destination连接，除了task的名字之外，它没有特别的编辑选项。

图4-28

注意：多点传送类似于Split 转换，不同的是多点传送把所有的行都输出，Split将有条件地输出部分行。

OLE DB命令

OLE DB命令对数据流中的数据行执行一个OLE DB命令。它针对数据表中的每一行进行更新操作，可以事先将要更新的数据存放在表中。或者针对一个有输入参数的存储过程，可以将这些参数存放在一个数据表中，不用每次都输入参数。

百分比抽样和行抽样Percentage and Row Sampling

百分比抽样和行抽样可以从数据源中随机选择一组数据。这两种task都可以产生两组输出，一组是随机选择的，另一组是没有被选择的。可以将这些选择出的数据发送到开发或者测试服务器上。这个Task的最合适的应用是建立数据挖掘模型然后，使用这些抽样数据来验证这个模型。

编辑这种task，选择要抽取的行数或者百分比，如图4-29。百分比抽样按百分比从数据源中随机选择数据，行抽样从数据源中随机选择具体的行数。可以对选中的数据和未被选择的数据命名。最后一个选择项是随机取样的参数。如果选择一个固定的参数，每次输出的结果是一样的，如果保持默认设置，就是不选择，每次将输出不同的数据。