机器学习
文章平均质量分 95
aqiu12316
这个作者很懒,什么都没留下…
展开
-
机器学习(1)
本章将从以下步骤完成一个机器学习项目1,问题分析2,获得数据3,从数据探索和可视化中获得洞见4,机器学习算法的数据准备5,选择和训练模型6,微调模型7,启动、监控和维护系统一,问题分析首先应该明确业务目标是什么,因为建立模型本身可能不是最终目标。公司需要知道如何使用这个模型,如何从中获利。这才是最重要的问题,因为这将决定你怎么设定问题,选择说明算法,使用什么测量...原创 2019-06-13 15:24:32 · 3538 阅读 · 7 评论 -
Django
Django一,简介Django是一个开放源代码的Web应用框架,由Python写成。采用了MTV的框架模式,即模型M,视图V和模版T。它最初是被开发来用于管理劳伦斯出版集团旗下的一些以新闻内容为主的网站的,即是CMS(内容管理系统)软件。并于2005年7月在BSD许可证下发布。这套框架是以比利时的吉普赛爵士吉他手Django Reinhardt来命名的。1,框架介绍Django 项目是一...原创 2019-09-02 15:36:17 · 34544 阅读 · 9 评论 -
机器学习(7)
在现实生活中很多机器学习问题有上千维,甚至上万维特征,这不仅影响了训练速度,通常还很难找到比较好的解。这样的问题成为维数灾难(curse of dimensionality)幸运的是,理论上降低维度是可行的。比如MNIST数据集大部分的像素总是白的,因此可以去掉这些特征;相邻的像素之间是高度相关的,如果变为一个像素,相差也并不大。需要注意:降低维度肯定会损失一些信息,这可能会让表现稍微变差。因...原创 2019-09-02 14:45:31 · 861 阅读 · 0 评论 -
机器学习(6)
假设要解决一个复杂的问题,让众多学生去回答,然后汇总他们的答案。在许多情况下,会发现这个汇总的答案比一个老师的答案要好。同样,如果汇总了一组预测变量(例如分类器或回归因子)的预测结果,则通常会得到比最佳个体预测变量得到更好的预测结果。这种技术被称为集成学习(Ensemble Learning)。一,投票分类器Voting Classifiers创建集成分类器的一个非常简单的方法是聚合多个分类...原创 2019-09-02 14:41:28 · 926 阅读 · 0 评论 -
机器学习(5)
决策树,它能够处理回归和分类问题,甚至是多输出问题,能够拟合复杂的数据(容易过拟合),而且它是集成算法:随机森林(Random forest)的基础,下面开始介绍决策树Scikit-learn的用法,以及参数的选择及算法的局限性。一,训练决策树并其可视化下面是决策树分类(DecisionTreeClassifier)用在Iris分类上的粒子。参数max_depth控制决策树的深度。from ...原创 2019-09-02 14:37:22 · 253 阅读 · 0 评论 -
机器学习(4)
支持向量机(SVM)是一种非常强大的机器学习模型,能够进行线性、非线性分类、回归问题,还能检测异常值。SVM特别适用于复杂但小型或中型的数据集的分类。一,线性SVM分类(Linear SVM Classification)如图,从左图我们可以看到现在有两类数据,只需要1条直线就能把它们分开,其中红线和紫线都能把这两类数据完美的分开,但是两条直线都非常靠近样本,如果有新的样本加入,有比较大的...原创 2019-09-02 14:35:12 · 1051 阅读 · 0 评论 -
scrapy
简介Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.Scrapy主要包括了以下组件:引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回...原创 2019-09-02 14:28:08 · 19015 阅读 · 2 评论 -
机器学习(3)
机器学习(3)本章主要介绍线性回归模型的原理一,线性回归线性模型其实就是对输入的特征值加权求和,再加上一个偏置项的常数其中,是预测值,n是特征的数量,是第i个特征值,是第j个模型参数这也可以更为简洁的向量化形式表达其中,是的转置向量(为行向量,而不再是列向量),X是实例的特征向量。我们如何来训练模型呢?训练模型就是设置模型参数直到模型最适应训练集的过程。要到达这个目的,我们首先需...原创 2019-09-02 14:18:46 · 1165 阅读 · 0 评论 -
机器学习(2)
机器学习(二)本章介绍分类系统1,MNIST2,训练一个二元分类器3,性能考核4,多类别分类器5,错误分析6,多标签分类7,多输出分类一,MNISTMNIST数据集是一组由美国高中生和人口调查局员工手写的70000个数字的图片,每张图片都用其代表的数字表示。这个数据集被广为使用,因此也被称作是机器学习领域的“HelloWorld”1,数据获取Scikit提供了许多助手功能来...原创 2019-06-14 15:27:44 · 1490 阅读 · 1 评论 -
numpy
一,NumPy 介绍1,什么是 NumPy?NumPy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等等。NumPy包的核心是 ndarray 对象。它封装了python原生的同数据类型的 n ...原创 2019-10-28 08:34:24 · 2636 阅读 · 1 评论