- 博客(11)
- 收藏
- 关注
原创 GBD+XGBOOST算法原理深入解析
GBDT+XGBOOST算法原理深入解析 首先对GBDT算法原理进行介绍,从机器学习的关键元素出发,一步一步推导出GBDT算法背后的理论基础,我们可以从这个过程中了解到GBDT算法的来龙去脉。对于该算法的工程实现,本文也有较好的指导意义,实际上对机器学习关键概念元素的区分对应了软件工程中的“开放封闭原则”的思想,基于此思想的实现将会具有很好的模块独立性和扩展性。1、GBDT和Boosting...
2019-11-29 22:01:09 1314
原创 决策树算法,ID3,C4.5,CART原理,SparkMllib的鸢尾花实战
决策树算法原理什么是决策树现实生活中的树树根->树干->树枝->树叶数据结构中的树树根结点分支结点叶子结点机器学习中的树分支结点叶子结点数据集中的特征是分支节点、数据集中的类别标签列是叶子节点。决策树的关键步骤是分裂属性。所谓分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“...
2019-11-24 16:17:44 2528
原创 SparkMllib特征提取、转换、选择
SparkMllib特征提取、转换、选择SparkMllib特征提取TF-IDF的理解TF(Term frequence):某个词在一个文档中出现的频率。TF=某个词在一个文档中出现的次数这个文档中词的总数TF=\frac{某个词在一个文档中出现的次数}{这个文档中词的总数}TF=这个文档中词的总数某个词在一个文档中出现的次数有些停用词几乎在所有的文章中都有出现,故只使用词频来进行...
2019-11-21 20:37:32 734
原创 SparkMllib基础、功能及应用场景、算法分类及应用场景、基础数据类型
SparkMllib基础及特征工程1.Spark功能及应用场景SparkMllib的功能ML算法:包括了分类、回归、降维、协同过滤、聚类Featurization特征化:特征抽取、特征转换、特征降维、特征选择pipeline管道:tools for constructing,evaluating and tuning ML pipelinesPersistence持久化 :模型的保...
2019-11-18 22:05:36 2950
原创 Spark机器学习基础-机器学习跟深度学习区别、基本概念等
Spark机器学习基础SparkMllib—Spark机器学习库1.机器学习和大数据的区别和联系大数据时代的改变大数据时代究竟改变了什么?—思维方式1.数据重要性----数据资源------数据资产(增值)2.方法论:基于知识的理论完美主义—基于数据的历史经验主义3.数据分析:统计学(抽样理论)------数据科学(大数据)数据科学家:大数据技术+机器学习算法技术+多年的...
2019-11-17 18:40:12 480
原创 机器学习-分类度量(classification metric)常用评价指标
评判指标存在的目的应用场景混淆矩阵accuracy =(TP+TN)/(TP+TN+FP+FN)precision =TP/(TP+FP)recall 召回率=真阳性率(True Positive Rate,TPR)=灵敏度(Sensitivity)=(TP/TP+FN)P-R曲线=precision recall curve真阴性率(True Negative Rate,TNR)...
2019-11-09 18:14:51 1773
原创 特征缩放-归一化normalization,标准化Standardization详解-思维导图
特征缩放的种类和各自的计算公式Rescaling (min-max normalization)Mean normalizationStandardization (Z-score Normalization)Scaling to unit length特征缩放的本质最大最小归一化和标准化如何选取特征缩放的好处...
2019-11-07 23:16:23 285
原创 机器学习基本概念-思维导图
行业热词解释机器学习基本术语机器学习整体流程机器学习的整体流程机器学习算法分类机器学习结果评估问题二分类问题回归问题聚类问题...
2019-11-04 18:18:06 501
原创 如何使用anaconda打开ipynb文件,有安装软件的图解。
如果没有Anaconda,需要先下载安装包·安装包的下载地址如下选择自己的系统,Python的版本,系统的位数.博主选择的是Windows-Python3.7-64Bit安装Anaconda可以通过下图的指示进行安装注意:安装路径不要有任何空格或汉字在Advanced Installation Options中不要勾选Add Anaconda to my...
2019-11-04 11:42:18 1221
原创 常见的sql面试题,有建表语句和答案
1.1 常见面试sql用一条SQL语句查询出每门课都大于80分的学生姓名-- 建表语句-- ------------------------------ Table structure for student_info-- ----------------------------DROP TABLE IF EXISTS `student_info`;CREATE TABLE...
2019-11-01 13:20:52 769
原创 使用scala语言实现快排,算法的行数很少,但是想要理解,需要有一些前提条件,下面介绍了我理解的详细过程。
object quickSort { def main(args: Array[String]): Unit = { val intArray: Array[Int] = Array.fill(1000)(util.Random.nextInt(1000)) val list: List[Int] = intArray.toList val ints: List[I...
2019-11-01 00:10:09 268
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人