数据之专业术语

离散变量: 离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量;离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。

决策树剪枝算法,剪枝是一种正则化。所谓的正则化,可以理解成通过某种手段使得最终模型更接近于结构最优以防止过拟合

                                             C_{\alpha}{T} = \sum_{t=1}^{\left| T \right|}{N_{t}H_{t}(T)} + \alpha \left| T \right|
其中:

  • |T| 表示树 T 中 leaf 的个数,Nt、Ht分别表示第 t 个 leaf 的样本个数和熵
  • α是惩罚因子、也就是新加入的、刻画模型复杂度的损失。可以看到,这里我们认为 leaf 的个数反映了模型的复杂度。

有了损失函数的定义之后,决策树的剪枝算法从直观上来说就是:如果一个 node 把它所有子孙都扔掉并变成一个 leaf 后、上述损失函数反而减少、那么就把这个 node 变成 leaf。

转载于:https://my.oschina.net/yezijun/blog/1586256

数据结构专业术语中存在许多不同的概念和定义。以下是一些常见术语的区别: 1. 数组(Array)和链表(Linked List): - 数组是一种线性数据结构,它以连续的内存空间存储相同类型的元素,并通过索引访问这些元素。 - 链表也是一种线性数据结构,它使用节点来存储元素,并通过指针将这些节点连接起来。链表允许动态分配内存,但访问元素的效率较低。 2. 栈(Stack)和队(Queue): - 栈是一种后进先出(LIFO)的数据结构,只允许在栈顶进行插入和删除操作。 - 队是一种先进先出(FIFO)的数据结构,它允许在队尾插入元素,在队头删除元素。 3. 堆(Heap)和树(Tree): - 堆是一种特殊的树型数据结构,它具有堆属性,即每个节点的值大于(或小于)其子节点的值。堆通常用于优先级队等应用。 - 树是一种非线性数据结构,由节点和边组成。不同的树有不同的特点和用途,如二叉树、红黑树、AVL 树等。 4. 哈希表(Hash Table)和映射(Map): - 哈希表是一种以键-值对存储数据数据结构,通过哈希函数将键映射到存储位置。 - 映射是一种抽象数据类型,它定义了一种键和值之间的关联关系。哈希表可以用作实现映射的数据结构。 这些术语之间的区别取决于它们的定义、特性和应用场景。需要根据具体的情况来选择适合的数据结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值