weka过滤器介绍

小生叫安辰

于 2021-10-15 21:58:47 发布

阅读量2.5k

点赞数 5

分类专栏：最优化方法文章标签： weka

安辰

本文链接：https://blog.csdn.net/m0_46976252/article/details/120791456

版权

最优化方法专栏收录该内容

2 篇文章

订阅专栏

作业三、所有Filter介绍

下面将罗列weka中所有filter介绍

AllFilter 一个实例过滤器，它不经过修改就通过所有实例。主要用于测试目标目的。
MultiFilter： 连续应用多个过滤器。如果所有提供的过滤器都是StreamableFilters，它也将作为一个可流过滤器。
RenameRalation： 允许更改一组实例的关系名称的筛选器。
有监督：
- 属性Filter
  - AddClassification：用于将分类、类分布和错误标志添加到具有分类器的数据集的过滤器。分类器要么根据数据本身训练，要么作为序列化模型提供。
  - AttributeSelection：可用于选择属性的监督属性筛选器。它非常灵活，允许多种搜索和评估方法相结合。
  - ClassConditionalProbabilities：将标称和/或数字属性的值转换为类条件概率。如果有k个类，则为每个原始类创建k个新属性，给出pr(att val | class k)。
  - ClassOrder：更改类的顺序，使类值不再符合头文件中指定的顺序。这些值将按照用户指定的顺序排列——可以按照类频率升序/降序排列，也可以是随机排列。
  - Discretize：将数据集中的数值属性范围离散为标称属性的实例筛选器。离散化采用Fayyad & Irani的MDL方法(默认)。
  - MergeNominalValues：使用CHAID方法合并指定属性(不包括class属性)中所有名义属性的值，但不考虑重新分割合并的子集。
  - NominalToBinary：将所有标称属性转换为二进制数字属性。
  - PartitionMembership：使用PartitionGenerator生成分区成员值的筛选器;经过筛选的实例由这些值加上class属性(如果在输入数据中设置)组成，并呈现为稀疏实例。
- 实例Filter
  - ClassBalancer：重设数据中的实例权重，以便每个类具有相同的总权重。
  - Resample：重采样、就是使用带替换或不带替换的抽样生成数据集的随机子样本。
  - SpreadSubsample：生成数据集的随机子样本。原始数据集必须完全适合内存。这个过滤器允许您指定最罕见和最常见类之间的最大“扩展”。
  - StratifiedRemoveFolds：这个过滤器接受一个数据集并输出指定的折叠以进行交叉验证。如果您不希望褶皱分层，请使用无监督版本。
无监督：
- 属性Filter
  - Add：向数据集添加新属性的实例筛选器
  - AddCluster：它添加一个新的标称属性，表示由指定的集群算法分配给每个实例的集群。
  - AddExpression：通过对现有属性应用数学表达式来创建新属性的实例筛选器。
  - AddID：向数据集添加ID属性
  - AddNoise：更改给定属性值百分比的实例筛选器。
  - AddUserFields：一个过滤器，它添加具有用户指定类型和常量值的新属性。
  - Addvalues：将给定列表中的标签添加到属性中，如果标签缺失。
  - CartesianProduct：用于执行一组标称属性的笛卡尔积的过滤器。
  - Center：集中给定数据集中的所有数字属性，使其均值为零。相当于中心化数据点
  - ChangeDateFormat：更改日期属性使用的日期格式。
  - ClassAssigner：可以设置和取消设置类索引的筛选器。
  - ClusterMembership：使用基于密度的聚类器生成聚类成员值的过滤器;经过筛选的实例由这些值加上class属性(如果在输入数据中设置)组成。
  - Copy：复制数据集中一系列属性的实例筛选器
  - DateToNumeric：将日期属性转换为数字属性的过滤器。
  - Discretize：将数据集中的数值属性范围离散为标称属性的实例筛选器
  - FirstOrder：该实例筛选器接受N个数值属性的范围，并用N-1个数值属性替换它们，这些数值属性的值是来自原始实例的连续属性值之间的差值。
  - FixedDictionaryStringToWordVector：将字符串属性转换为一组属性，这些属性表示字符串中包含的文本中的单词出现信息(取决于标记赋予器)。
  - InterquartileRange：一种基于四分位数范围检测异常值和极值的滤波器。
  - KernelFilter：将给定的数据集转换为核矩阵。
  - MakeIndicator：一个过滤器，它使用布尔属性替换标称属性来创建新数据集。
  - MathExpression：根据给定的数学表达式修改数值属性。
  - MergeInfrequentNominalValues：合并不太频繁的指定标称属性的所有值。
  - MergeManyValues：将一个标称属性的多个值合并为一个值。
  - MergeTwoValues：将名义属性的两个值合并为一个值。
  - NominalToBinary：将所有标称属性转换为二进制数字属性。
  - NominalToString：将名义属性(一组值)转换为字符串(未指定数量的值)。
  - Normalize：对给定数据集中的所有数值进行规范化(如果设置了class属性，则不包括此类属性)。
  - NumericCleaner：一个过滤器，从太小、太大或非常接近某个值的值中“清除”数值数据，并将这些值设置为预定义的默认值。
  - NumericToBinary：将所有数值属性转换为二进制属性(除了class属性，如果设置):如果数值属性的值正好为零，则新属性的值将为零。
  - NumericToDate：用于将数值属性转换为日期属性的过滤器。
  - NumericToNominal：将数值属性转换为标称属性的过滤器。
  - NumericTransform：使用给定的转换方法转换数值属性。
  - Obfuscate：一个简单的实例过滤器，重命名关系、所有属性名和所有标称属性值。
  - OrdinalToNumeric：将序数标称属性转换为数字属性的属性筛选器
  - PartitionedMultiFilter：对属性子集应用筛选器并将输出组装到新数据集的筛选器。
  - PKIDiscretize：使用等频次分类将数值属性离散化，并强制容器的数量等于数值属性值的平方根。
  - PrincipalComponents：执行数据的主成分分析和转换。
  - RandomProjection：通过使用带有单位长度列的随机矩阵将数据投影到低维子空间来降低数据的维数。
  - RandomSubset：选择非类属性的随机子集，可以是绝对值，也可以是百分比。
  - Remove：从数据集中删除一系列属性的筛选器。
  - RemoveByName：删除基于与属性名称匹配的正则表达式的属性，但不会删除类属性。
  - RemoveType：删除给定类型的属性。
  - RemoveUseless：此筛选器将删除完全不变或变化很大的属性。
  - RenameAttribute：此过滤器用于重命名属性。
  - RenameNominalValues：重命名命名属性的值。
  - Reorder：一个过滤器，它生成具有新属性顺序的输出。
  - ReplaceMissingValues：使用训练数据中的模式和方法替换数据集中名义属性和数字属性的所有缺失值。
  - ReplaceMissingWithUserConstant：用用户提供的常量值替换数据集中所有标称、字符串、数字和日期属性的缺失值。
  - ReplaceWithMissingValue：可用于在数据集中引入缺失值的筛选器。
  - SortLabels：用于对标称属性的标签进行排序的简单过滤器。
  - Standardize：标准化给定数据集中的所有数字属性，使其均值和单位方差为零(如果设置了类属性，则不包括此类属性)。
  - StringToNominal：将字符串属性范围(未指定数量的值)转换为标称(设置数量的值)。
  - StringToWordVector：将字符串属性转换为一组数字属性，表示来自字符串中包含的文本的单词出现信息。
  - SwapValues：交换名义属性的两个值。
  - TimeSeriesDelta：一个实例筛选器，它假定实例形成时间序列数据，并用当前值和某个以前(或将来)实例的等价属性属性值之间的差值替换当前实例中的属性值。
  - TimeSeriesTranslate：一个实例筛选器，它假定实例形成时间序列数据，并用某个以前(或将来)实例的等价属性值替换当前实例中的属性值。
  - Transpose：转换数据实例变成属性，属性变成实例。就是数据类型的转换
- 实例Filter
  - NonSparseToSparse：将所有传入实例转换为稀疏格式的实例筛选器。
  - Randomize：随机打乱通过它的实例的顺序。
  - RemoveDuplicates：从接收到的第一批数据中删除所有重复的实例。简单地返回其他批次的副本。用来删除重复样本
  - RemoveFolds：这个过滤器接受一个数据集并输出指定的折叠以进行交叉验证。
  - RemoveFrequentValues：确定保留(标称)属性的哪些值(频繁值或不频繁值)，并相应地过滤实例。
  - RemoveMisclassified：用来删除分类错误的实例，删除异常值
  - RemovePercentage：删除给定百分比的数据集的筛选器。
  - RemoveRange：用于删除给定范围的数据集实例的筛选器。
  - RemoveWithValues：根据属性的值过滤实例。
  - Resample：使用带替换或不带替换的抽样生成数据集的随机子样本
  - ReservoirSample：使用维特的储层采样算法“R”生成数据集的随机子样本。
  - SparseToNonSparse：将所有传入的稀疏实例转换为非稀疏格式的实例筛选器。
  - SubsetByExpression：根据用户指定的表达式过滤实例。