自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无境

好好学习,天天向上

  • 博客(14)
  • 收藏
  • 关注

原创 分类算法的评价: 混淆矩阵,ROC曲线,AUC面积

分类准确度的问题一个癌症预测系统,输入体检信息,可以判断是否有癌症:预测准确度:99.9%如果某种癌症的产生的概率只有0.1%我们的系统预测所有人都是健康的,即可达到99.9%的准确率、如果某种癌症的产生的概率只有0.01%我们的系统预测所有人都是健康的,即可达到99.99%的准确率、对于极度偏斜(Skewed Data)的数据,只使用分类准确度是远远不够的。例如上面的例子使用混...

2019-11-29 12:27:56 769

原创 逻辑回归

逻辑回归 Logistic Regression逻辑回归:解决分类问题回归问题怎么解决分类问题?将样本的特征和样本发生的概率联系起来,概率是一个数y^=f(x)\hat{y} = f(x)y^​=f(x)p^=f(x)\hat{p} = f(x)p^​=f(x)逻辑回归既可以看做是回归问题,也可以看做是分类问题,通常作为分类算法用,只可以解决二分类问题。绘制 σ\sigma...

2019-11-28 14:11:02 317

原创 多项式回归,模型泛化, 学习曲线, 偏差方差权衡, 模型正则化, 岭回归

多项式回归还是在线性回归的基础上进行,是对数据进行升维,然后进行线性回归处理import numpy as npimport matplotlib.pyplot as pltx = np.random.uniform(-3,3,size=100)X = x.reshape(-1,1)X.shapey = 0.5 * x**2 +x +2 +np.random.normal(0,...

2019-11-26 23:53:30 437

转载 机器学习 -- 主成分分析

主成分分析Principal Component Analysis PCA一个非监督的机器学习算法主要用于数据的降维通过降维,可以发现更便于人类理解的特征其他应用,可视化,去噪原理:进行降维,保留特征1进行降维,保留特征2上面哪种方案更好?可以看出 保留特征1 的点与点之间的间距更大,拥有更好的可区分度。这种方案比较好还可以有更好的方案吗?将点映射到这条直线上这种...

2019-11-26 16:12:25 356

原创 梯度下降法

强烈推荐链接这篇文章,通俗易懂https://www.jianshu.com/p/c7e642877b0e梯度下降法不是一个机器学习算法是一种基于搜索的最优化方法作用:最小化一个损失函数梯度上升法:最大化一个效用函数梯度下降法η\etaη称为学习率(learning rate)η\etaη的取值影响获得最优解的速度η\etaη取值不合适,甚至得不到最优解η\etaη...

2019-11-24 17:49:25 213

原创 线性回归,回归算法评估, 多元线性回归

线性回归解决回归问题思想简单,实现容易许多强大的非线性模型的基础结果具由很好的可解释性蕴含机器学习中的很多重要思想例如 房屋价格(输出标记)和面积(样本特征)之间的关系简单线性回归样本特征只有一个,称为 简单线性回归其关系为 y = ax+b假设我们找到3了最佳拟合的直线方程,y =ax+b则对每个样本点 xi 根据我们的直线方程,预测值为 y^i\hat{y}^...

2019-11-23 21:42:53 543

原创 KNN, 数据归一化

KNN - K近邻算法K-Nearest Neighbors特点思想极度简单应用数学知识少效果好(缺点?)可以解释机器学习算法使用过程中的很多问题更完整的刻画机器学习应用的流程K近邻算法取一个k值,假设k=3,根据一个点A的位置,计算距离这个点最近的3(k)个点的的类型。来进行投票产生A的类型计算距离:KNN的过程import numpy as npfrom ...

2019-11-21 22:41:19 2292

原创 pip安装豆瓣源的库

豆瓣源pip install <库名> -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

2019-11-21 14:32:51 769

原创 numpy

创建np.arrayIn [2]: import numpy as npIn [3]: np.__version__Out[3]: '1.17.0'In [4]: arr = np.array([i for i in range(10)])In [6]: arrOut[6]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [7]: arr[3...

2019-11-21 14:11:05 232

原创 Hive

mapreduce的核心思想:分而治之大数据的趋势:平台化,可视化hive的简介hive的产生非java编程者对hdfs的数据做MapReduce操作hive简介hive :数据仓库:ETL: 是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用...

2019-11-20 19:44:18 268

原创 TF-IDF

TF-IDF :term frequency-inverse document frequency一种用于咨询检索与资讯勘测的常用加权技术是一种统计方法,用以评估一个字词对于一个文件集或者一个语料库中的其中一份文件的重要程度字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降加权的各种形式常备搜索引擎应用作为文件与用户查询之间相关程度的度...

2019-11-13 15:38:39 174

原创 PageRank 计算

什么是pagerankpagerank是谷歌提出的算法,用来衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度pagerank实现了将 链接价值概念作为排名因素算法理解:入链 : 投票让链接来投票,到一个网页的超链接相当于对这个网页投了一票入链数量:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个网页越重要入链质量:指向页面A的入链质量不同,...

2019-11-13 00:16:38 1080

原创 《Hadoop技术内幕深入解析YARN架构设计与原理》读书笔记(1)

《Hadoop技术内幕深入解析YARN架构设计与原理》读书笔记 (1)第二章:YARN的设计理念和基本架构由于 mrv1 在扩展性,可靠性,资源利用和多框架等方面存在明显的不足,诞生了新的MapReduce,由于mrv2将资源管理模块构建成了一个独立的通用系统YARN。2.1 YARN产生背景mrv1的局限性:扩展性差可靠性差 master/slave结构,master单点故障问...

2019-11-03 22:34:23 422

原创 MapReduce 原理

splitsplit 数量: 依赖于block 大小。一般情况下于block 大小相对应1:1splits —》 filesplit 【start , size, blocklocations…】filesplit 放在list 中 -》 将list 变为数组 ,这个数组长度就是map的数量mapmapin -> maptask -> run 方法 -> mapper…...

2019-11-03 21:33:28 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除