![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
金陵笑笑生
你离开了南京,从此没有人和我说话
展开
-
机器学习实战+源代码
1. 内容提要本书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效可复用的 Python 代码阐 释如何处理统计数据,进行数据分析及可视化。读者可从中学到一些核心的机器学习算法,并将其运用于某些策略性任务中,如分类、预测及推荐等。本书适合机器学习相关研究人员及互联网从业人员学习参考。本书没有从理论角度来揭示机器学习算法背后的数学原理,而是通过“原理简述+问题实例+实际代码...原创 2020-03-06 17:02:47 · 6747 阅读 · 0 评论 -
动手学深度学习
(资料下载方式见文末)内容简介:本书向希望了解深度学习,特别是对实际使用深度学习感兴趣的学习者。本书并不要求你有任何深度学习或者机器学习的背景知识,我们将从头开始解释每个概念。虽然深度学习技术与应用的阐述涉及了数学和编程,但你只需了解基础的数学和编程,例如基础的线性代数、微分和概率,以及基础的Python编程。本书将全⾯介绍深度学习从模型构造到模型训练的⽅⽅⾯⾯,以及它们在计算机视觉和⾃...原创 2019-12-04 10:29:02 · 657 阅读 · 0 评论 -
特征工程
本节将介绍特征工程的一些常见示例:表示分类数据的特征、表示文本的特征和表示图像的特征。另外,还会介绍提高模型复杂度的衍生特征和处理缺失数据的填充方法。这个过程通常被称为向量化,因为它把任意格式的数据转换成具有良好特性的向量形式。01分类数据一种常见的非数值数据类型是分类数据。例如,浏览房屋数据的时候,除了看到“房价”(price)和“面积”(rooms)之类的数值特征,还会有“地...原创 2019-05-21 08:58:52 · 236 阅读 · 0 评论 -
Matplotlib可视化最有价值的 50 个图表(附完整 Python 源代码)
本文总结了 Matplotlib 以及 Seaborn 用的最多的50个图形,掌握这些图形的绘制,对于数据分析的可视化有莫大的作用,强烈推荐大家阅读后续内容。在数据分析和可视化中最有用的 50 个 Matplotlib 图表。 这些图表列表允许您使用 python 的 matplotlib 和 seaborn 库选择要显示的可视化对象。介绍这些图表根据可视化目标的7个不同情景进行分组。...原创 2019-03-13 16:12:36 · 1992 阅读 · 1 评论 -
交叉熵代价函数
1.从方差代价函数说起代价函数经常用方差代价函数(即采用均方误差MSE),比如对于一个神经元(单输入单输出,sigmoid函数),定义其代价函数为:其中y是我们期望的输出,a为神经元的实际输出【 a=σ(z), where z=wx+b 】。在训练神经网络过程中,我们通过梯度下降算法来更新w和b,因此需要计算代价函数对w和b的导数:然后更新w、b:w <—— ...原创 2019-03-14 17:01:12 · 332 阅读 · 0 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitting,...原创 2019-03-14 16:40:37 · 341 阅读 · 0 评论 -
XGBoost常用参数说明
xgboost是⼀种⾼效率boosting算法,适⽤回归和⼆分类问题,详见 https://github.com/dmlc/xgboost 。参数说明:常见问题输⼊特征和⽬标特征都必须是int和double类型。搜索公众号:ai_works,获取更多机器学习资讯:长按二维码,关注:机器学习AI工场...原创 2019-03-14 16:22:52 · 478 阅读 · 0 评论 -
安装CPU版本Tensoflow
一、安装Anaconda3(1) 下载Anaconda安装文件(2) 注意安装Anaconda时一定要把环境变量加入windows环境中。要没有勾选,安装完后还有手动加入。而且注意3.4版本是默认不加入Anaconda的文件路径到环境变量的。 (3) 安装完成后,运行开始菜单—>Anaconda3—>Anaconda Prompt 输入如下命令查看已安装的库c...原创 2019-02-23 15:08:05 · 738 阅读 · 0 评论 -
机器学习经典算法优缺点对比及选择建议
1. 偏差&方差在统计学中,一个模型好坏,是根据偏差和方差来衡量的,所以我们先来普及一下偏差(bias)和方差(variance):1. 偏差:描述的是预测值(估计值)的期望E’与真实值Y之间的差距。偏差越大,越偏离真实数据。2. 方差:描述的是预测值P的变化范围,离散程度,是预测值的方差,也就是离其期望值E的距离。方差越大,数据的分布越分散。模型的真实误差是两者之...原创 2019-02-18 10:09:07 · 839 阅读 · 0 评论 -
8个清洗数据Python代码
最近,大数据工程师Kin Lim Lee在Medium上发表了一篇文章,介绍了8个用于数据清洗的Python代码。数据清洗,是进行数据分析和使用数据训练模型的必经之路,也是最耗费数据科学家/程序员精力的地方。这些用于数据清洗的代码有两个优点:一是由函数编写而成,不用改参数就可以直接使用。二是非常简单,加上注释最长的也不过11行。在介绍每一段代码时,Lee都给出了用途,也在代码中也给出注...转载 2019-02-11 11:55:39 · 1259 阅读 · 0 评论 -
机器学习之数据预处理(Python 实现)
数据清洗和预处理是模型训练之前的必要过程,否则模型可能就「废」了。本文将带你领略如何在任意的数据集上,针对任意一个机器学习模型,完成数据预处理工作。数据预处理是建立机器学习模型的第一步(也很可能是最重要的一步),对最终结果有决定性的作用:如果你的数据集没有完成数据清洗和预处理,那么你的模型很可能也不会有效——就是这么简单。人们通常认为,数据预处理是一个非常枯燥的部分。但它就是「做好准备」和...原创 2019-02-22 10:15:20 · 2136 阅读 · 0 评论 -
数据预处理
第一步:导入需要的库这两个是我们需要导入的库,Numpy包含数学计算函数,Pandas用于导入和管理数据集。第二步:导入数据集数据集通常是.csv格式,CSV文件以文本形式保存表格数据。文件的每一行是一条数据记录。我们使用Pandas的read_csv()方法读取本地csv文件为一个数据帧。然后,从数据帧中制作自变量和因变量的矩阵和向量。第三步:处理丢失数据...原创 2019-02-09 13:25:47 · 276 阅读 · 0 评论 -
机器学习—决策树(ID3算法)
作为机器学习中的一大类模型,树模型一直以来都颇受学界和业界的重视。目前无论是各大比赛各种大杀器的XGBoost、lightgbm还是像随机森林、Adaboost等典型集成学习模型,都是以决策树模型为基础的。传统的经典决策树算法包括ID3算法、C4.5算法以及GBDT的基分类器CART算法。 三大经典决策树算法最主要的区别在于其特征选择准则的不同。ID3算法选择特征的依据是信息增益、C4...原创 2019-02-15 09:49:51 · 1323 阅读 · 0 评论 -
机器学习——朴素贝叶斯算法
朴素贝叶斯的“朴素”对应着“独立性假设”这一个朴素的假设、“贝叶斯”对应着“后验概率最大化”这一贝叶斯思想。朴素贝叶斯算法的一个非常重要的基本假设就是独立性假设:若样本空间X是n维的,那么对 ,我们假设 是有随机变量 生成的、且 之间在各种意义下相互独立。朴素贝叶斯算法一般来说包含三种模型:离散型朴素贝叶斯:所有维度的特征都是离散型随机变量。连续型朴素贝叶斯:所有维度的特征都是...原创 2018-12-28 17:37:57 · 939 阅读 · 0 评论