从零学习机器学习七:聚类算法 聚类算法目标1 聚类算法简介1.1 认识聚类算法1.2 现实中的应用1.3 概念1.4 与分类算法区别2 聚类算法API2.1 API2.2 案例3 实现流程3.1 k-means聚类步骤3.2 案例练习3.3 小结4 模型评估4.1 误差平方和(SSE)4.2 ”肘“方法-K值确定4.3 轮廓系数法(SC)4.4 CH系数4.5 总结5 算法优化5.1 优缺点5.2 Canopy算法5.9 总结6 特征工程-特征降维6.1 降维6.2 特征选择6.3 主成分分析目标掌握聚类算法的实现过程知道K-m
从零开始学习机器学习六:集成学习 集成学习目标1 集成学习简介1.1 认识集成学习2 Bagging&随机森林2.1 Bagging集成原理2.2 随机森林构造2.3 随机森林API2.4 随机森林案例2.5 bagging集成优点3 Boosting3.1 boosting集成原理3.2 GBDT(了解)3.3 XGBoost(了解)3.4 泰勒公式(拓展)目标了解集成学习中主要解决的两个核心任务知道bagging集成原理知道随机森林决策树的建立过程知道为什么需要随机有放回(Bootstrap)的抽样应用Random
从零开始学习机器学习五:决策树算法&特征工程 决策树&特征工程目标1 简介1.1 认识决策树2 分类原理2.1 熵2.2 决策树的划分依据一-信息增益2.3 决策树的划分依据二-信息增益率2.4 决策树的划分依据三-基尼值和基尼指数2.5 常见决策树类型比较3 cart剪枝3.1 为什么需要剪枝3.2 常用剪枝方法4 特征工程-特征提取4.1 定义4.2 字典特征提取4.3 文本特征提取5 决策树算法API5.1 API6 总结目标掌握决策树实现过程知道信息熵的公式及作用知道信息增益&信息增益率的作用知道基尼指数的作用知道
从零开始学习机器学习四:逻辑回归LR 逻辑回归(LR)目标:1 逻辑回归介绍1.1 介绍及应用1.2 原理1.3 损失及优化2 逻辑回归API2.1 API3 分类评估方法3.1 分类评估3.2 ROC曲线3.3 AUC指标4 ROC曲线的绘制4.1 曲线绘制4.2 意义目标:知道逻辑回归的损失函数和优化方法知道sigmoid函数知道逻辑回归的应用场景应用LogiticRegression实现逻辑回归预测知道精确率、召回率指标的区别知道如何解决样本不均衡情况下的评估了解ROC曲线的意义说明AUC指标大小应用classific
从零开始学习机器学习三:线性回归 线性回归目标:1 线性回归简介1.1 什么是线性回归1.2 线性回归API2 数学:求导2.1 常见函数的导数2.2 导数的四则运算2.3 矩阵向量求导3 损失和优化3.1 损失函数3.2 优化算法4 梯度下降4.1 全梯度下降(FG)4.2 随机梯度下降(SG)4.3 小批量梯度下降(mini-bantch)4.4 随机平均梯度下降(SAG)4.5 算法比较5 欠拟合和过拟合5.1 定义5.2 原因及解决办法5.3 正则化5.4 维灾难(略)6 模型的保存和加载6.1 API6.2 案例总结目标:掌
从零开始学习机器学习一:揭开人工智能的面纱 机器学习概述目标1.1 人工智能发展1.2 人工智能概述1.3 机器学习工作流程1.4 机器学习算法分类1.5 模型评估均方根误差(Root Mean Squared Error,RMSE)相对平方误差(Relative Squared Error,RSE)平均绝对误差(Mean Absolute Error,MAE)相对绝对误差(Relative Absolute Error,RAE)决定系数 (Coefficient of Determination)小结目标了解人工智能发展历程了解人工智能概述
Hadoop学习笔记:二、Hadoop环境安装配置 Hadoop学习笔记:二、Hadoop环境安装配置目标1 VMware安装CentOS71.1 安装VMware151.2 Centos7安装2 Hadoop集群搭建(完全分布式)2.1 Hadoop2.7.7安装2.2 配置Hadoop2.3 疑难解决3 总结目标掌握VMware安装Centos7系统掌握Hadoop集群搭建掌握相关软件的安装知道常见问题的处理1 VMware安装CentOS71.1 安装VMware15关注公众号:EZ大数据,回复VM获取VMware15安装包及激活
Hadoop学习笔记:六、资源调度器Yarn Hadoop学习笔记:六、资源调度器Yarn目标:1 Yarn的基本架构2 Yarn的工作机制3 Yarn的作业提交过程4 Yarn的资源调度器目标:了解Yarn的基本架构掌握Yarn的工作机制重点:掌握Yarn的作业提交过程了解Yarn的资源调度器1 Yarn的基本架构Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于操作系统之上的应用程序架构示意图:2 Yarn的工作机制工作机制详解:
Hadoop学习笔记:五、MapReduce Hadoop学习笔记:五、MapReduce目标:1 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.3 MapReduce核心思想1.4 MapReduce编程规范2 Hadoop序列化2.1 序列化概述3 MapReduce框架原理3.1 InputFormat数据输入3.2 FileInputFormat切片机制3.3 CombineTextInputFormat切片机制3.4 自定义InputFormat4 MapReduce工作流程4.1 流程示意图4.2
Hadoop学习笔记:四、HDFS高级部分 Hadoop学习笔记:四、HDFS高级部分目标:1 HDFS的数据流1.1 HDFS读数据流程1.2 HDFS写数据流程2 NN和SNN2.1 NN和SNN工作机制2.2 FsImage和Edits详解2.3 NN故障处理3 DN3.1 DN工作机制3.2 数据完整性4 HDFS2.x新特性4.1 小文件存档4.2 快照5 HDFS的HA(高可用)5.1 HA概述5.2 HDFS-HA工作要点5.3 HDFS-HA自动故障转移机制小结目标:重点:HDFS的数据流(读写操作)重点:NameNode和S
Hadoop学习笔记:三、初步认识HDFS Hadoop学习笔记:三、初步认识HDFS目标:1 HDFS概述1.1 背景及定义1.2 优缺点2 HDFS组成架构2.1 组成架构2.2 文件块大小3 HDFS的Shell操作3.1 基本语法3.2 常用命令目标:了解HDFS背景及定义掌握HDFS的优缺点掌握HDFS的组成架构掌握HDFS的Shell操作1 HDFS概述1.1 背景及定义背景在现实情况下,随着数据量增大,一个操作系统存不下所有的数据,那么久分配到更多的操作系统的磁盘中,但是不方便管理和维护,所以就需要一个系统来管
Hadoop学习笔记:一、认识大数据生态体系 Hadoop学习笔记:一、认识大数据生态体系目标1 大数据认知1.1 部门业务流程1.2 部门组织架构2 Hadoop-->大数据生态2.1 Hadoop是什么2.2 Hadoop的发展2.3 Hadoop优势2.4 Hadoop组成3 大数据技术生态体系3.1 生态体系示意图3.2 相关技术解释目标认识大数据从Hadoop框架来看大数据生态1 大数据认知略过概念性的大数据特点、前(钱)景、优势等,直接看点工作实际相关的1.1 部门业务流程1.2 部门组织架构2 Hadoo
Pandas学习笔记 Pandas学习笔记1 Pandas介绍1.1 认识Pandas1.2 案例2 Pandas--数据结构2.1 Series2.2 DataFram3 Pandas的基本数据操作3.1 索引操作3.2 赋值3.3 排序4 DataFrame运算4.1 算术运算4.2 逻辑运算4.3 统计运算4.4 自定义运算5 Pandas画图5.1 pandas.DataFrame.plot5.2 pandas.Series.plot6 文件读取与存储6.1 CSV6.2 HDF56.3 JSON7 高级处理7.1 缺失
Numpy学习笔记 Numpy学习笔记1 Numpy介绍1.1 Numpy的优势2 ndarray的创建与数据类型2.1 ndarray介绍2.2 ndarray的创建3 ndarray的索引、切片3.1 一维数组的索引与切片3.3 条件索引4 ndarray运算4.1 计算函数4.2 判断函数4.3 统计运算4.4 去重排序函数小结:1 Numpy介绍1.1 Numpy的优势Numpy(Numerical Python)是一个开源的Python科学计算库,本身是由C语言开发,用于快速处理任意维度的数组。Numpy支持常
Matplotlib学习笔记 Matplotlib学习笔记1.1 认识Matplotlib1.2 基础绘图功能(折线图plot)1.3 常见图形绘制小结1.1 认识Matplotlib架构容器层Canvas–画板:是底层实现,不需要关注Figure–画布:建立在Canvas之上,在使用之前每次都需要进行实例化axes–坐标系:建立在Figure之上,数据的绘图区域Axis(坐标轴):坐标系中的一条轴,包含大小限制、刻度和刻度标签辅助显示层添加坐标描述,标题等内容图像层设定要
Jupyter Notebook使用 JupyterNotebook使用1 Jupyter Notebook介绍1.1 界面启动、创建文件2 Jupyter Notebook操作2.1 cell操作2.2 鼠标操作2.3 快捷键操作2.4 配置小结:1 Jupyter Notebook介绍Jupyter Notebook是一款程序员和科学工作者的编程/文档/笔记/展示软件。1.1 界面启动、创建文件启动本地notebook的默认URL为:http://localhost:8888方法一:安装anaconda,启动Jupyt