- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 剑指offer:树的子结构(Python)
题目描述输入两棵二叉树A,B,判断B是不是A的子结构。(ps:我们约定空树不是任意一个树的子结构)# -*- coding:utf-8 -*-# class TreeNode:# def __init__(self, x):# self.val = x# self.left = None# self.right = Non...
2018-08-16 10:43:59 281
转载 机器学习算法——评价指标汇总
准确率,精确率,召回率和F1准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-MeasureROC-AUCROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。ROC更好的参考正如我们...
2018-08-13 17:48:05 7252 1
转载 处理非平衡数据集——SMOTE算法
SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本...
2018-08-06 20:12:19 2766
转载 随机森林和GBDT的区别
一,随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点; 重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,...
2018-08-06 19:52:25 435
转载 hive基本概念原理与底层架构
Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。术语“大数据”是大型数据集,其中包括体积庞大,高速,以及各种由与日俱增的数据的集合。使用传统的数据管理系统,它是难以加工大型数据。因此,Apache软件基金会推出了一款名为Hadoop的解...
2018-08-06 14:22:57 8909 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人