自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 GBD+XGBOOST算法原理深入解析

GBDT+XGBOOST算法原理深入解析​ 首先对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,我们可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。1、GBDT和Boosting...

2019-11-29 22:01:09 1314

原创 决策树算法,ID3,C4.5,CART原理,SparkMllib的鸢尾花实战

决策树算法原理什么是决策树现实生活中的树树根->树干->树枝->树叶数据结构中的树树根结点分支结点叶子结点机器学习中的树分支结点叶子结点数据集中的特征是分支节点、数据集中的类别标签列是叶子节点。决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“...

2019-11-24 16:17:44 2528

原创 SparkMllib特征提取、转换、选择

SparkMllib特征提取、转换、选择SparkMllib特征提取TF-IDF的理解TF(Term frequence):某个词在一个文档中出现的频率。TF=某个词在一个文档中出现的次数这个文档中词的总数TF=\frac{某个词在一个文档中出现的次数}{这个文档中词的总数}TF=这个文档中词的总数某个词在一个文档中出现的次数​有些停用词几乎在所有的文章中都有出现,故只使用词频来进行...

2019-11-21 20:37:32 734

原创 SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型

SparkMllib基础及特征工程1.Spark功能及应用场景SparkMllib的功能ML算法:包括了分类、回归、降维、协同过滤、聚类Featurization特征化:特征抽取、特征转换、特征降维、特征选择pipeline管道:tools for constructing,evaluating and tuning ML pipelinesPersistence持久化 :模型的保...

2019-11-18 22:05:36 2950

原创 Spark机器学习基础-机器学习跟深度学习区别、基本概念等

Spark机器学习基础SparkMllib—Spark机器学习库1.机器学习和大数据的区别和联系大数据时代的改变大数据时代究竟改变了什么?—思维方式1.数据重要性----数据资源------数据资产(增值)2.方法论:基于知识的理论完美主义—基于数据的历史经验主义3.数据分析:统计学(抽样理论)------数据科学(大数据)数据科学家:大数据技术+机器学习算法技术+多年的...

2019-11-17 18:40:12 480

原创 机器学习-分类度量(classification metric)常用评价指标

评判指标存在的目的应用场景混淆矩阵accuracy =(TP+TN)/(TP+TN+FP+FN)precision =TP/(TP+FP)recall 召回率=真阳性率(True Positive Rate,TPR)=灵敏度(Sensitivity)=(TP/TP+FN)P-R曲线=precision recall curve真阴性率(True Negative Rate,TNR)...

2019-11-09 18:14:51 1773

原创 特征缩放-归一化normalization,标准化Standardization详解-思维导图

特征缩放的种类和各自的计算公式Rescaling (min-max normalization)Mean normalizationStandardization (Z-score Normalization)Scaling to unit length特征缩放的本质最大最小归一化和标准化如何选取特征缩放的好处...

2019-11-07 23:16:23 285

原创 机器学习基本概念-思维导图

行业热词解释机器学习基本术语机器学习整体流程机器学习的整体流程机器学习算法分类机器学习结果评估问题二分类问题回归问题聚类问题...

2019-11-04 18:18:06 501

原创 如何使用anaconda打开ipynb文件,有安装软件的图解。

如果没有Anaconda,需要先下载安装包·安装包的下载地址如下选择自己的系统,Python的版本,系统的位数.博主选择的是Windows-Python3.7-64Bit安装Anaconda可以通过下图的指示进行安装注意:安装路径不要有任何空格或汉字在Advanced Installation Options中不要勾选Add Anaconda to my...

2019-11-04 11:42:18 1221

原创 常见的sql面试题,有建表语句和答案

1.1 常见面试sql用一条SQL语句查询出每门课都大于80分的学生姓名-- 建表语句-- ------------------------------ Table structure for student_info-- ----------------------------DROP TABLE IF EXISTS `student_info`;CREATE TABLE...

2019-11-01 13:20:52 769

原创 使用scala语言实现快排,算法的行数很少,但是想要理解,需要有一些前提条件,下面介绍了我理解的详细过程。

object quickSort { def main(args: Array[String]): Unit = { val intArray: Array[Int] = Array.fill(1000)(util.Random.nextInt(1000)) val list: List[Int] = intArray.toList val ints: List[I...

2019-11-01 00:10:09 268

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除