2020年06月_茫茫人海一粒沙

原创 [深度学习-优化]欠拟合与过拟合以及解决方法

什么是过拟合？上图来自于吴恩达老师机器学习课程，第一张图是“欠拟合”（underfit），第三图是过拟合（overfit），第二张图是正好的状态。有图可以看出来，过拟合就是训练的模型与数据集匹配的太完美，以至于“过了”。过拟合的危害是：模型不够“通用”，也就是说如果将模型应用在新的数据上，得到的效果不好。举例说明，如果一个模型在训练集上的准确率达到99.9%，而将模型应用在测试集时，准确率只有80%，很明显这是一个过拟合的状态。什么原因导致了过拟合？数据问题数据太少了，模型没有足够多的意外数

2020-06-29 19:17:09 1764

原创 [深度学习-实践]BP神经网络的Helloworld(手写体识别和Fashion_mnist)

前言原理部分请看这里 [深度学习-原理]BP神经网络Tensorflow2 实现一个简单的识别衣服的例子数据集Fashion_mnist，此数据集包含10类型的衣服（‘T-shirt/top’, ‘Trouser’, ‘Pullover’, ‘Dress’, ‘Coat’, ‘Sandal’, ‘Shirt’, ‘Sneaker’, ‘Bag’, ‘Ankle boot’）训练数据是60000条，大小是28x28测试数据是10000条，大小是28x28看看训练数据的前25张图片吧impo

2020-06-29 15:42:04 762

原创 [爬虫-python]爬取京东100页的图书（机器学习）的信息（价格，打折后价格，书名，作者，好评数，差评数，总评数）

Python爬取京东的机器学习类图书的信息一，配置搜索关键字和页数，二，查找用到的三个URL的过程1. 搜索图书的URL2. 评论总数，差评数，好评数的URL3. 当前价格与打折前价格URL四，代码分析五，完整代码六，执行结果一，配置搜索关键字和页数，本例是搜索”机器学习“，页数我配了100页没封号。大概爬下来三千条图书。用时没有留意，大概就几分钟吧，很快的。if __name__ == '__main__': # 测试, 只爬取两页搜索页与两页评论 test = CrawlDog

2020-06-25 11:44:45 2200 7

原创 [爬虫-python] scrapy框架入门实例-百度贴吧

这里写目录标题0. 大概流程1. 安装Scrapy2. 工程建立3. 实现过程3.1在items.py中定义自己要抓取的数据：3.2 然后在spiders目录下编辑myspider.py那个文件：3.3 执行命令 scrapy crawl [类中name值]0. 大概流程抓取内容（百度贴吧：网络爬虫吧）页面： http://tieba.baidu.com/f?kw=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB&ie=utf-8数据：1.帖子标题；2.帖子作者；3.

2020-06-21 18:59:15 401

原创 [机器学习-原理及实现篇]线性回归-最小二乘法

线性回归到底要干什么，顾名思义很简单，即在已有数据集上通过构建一个线性的模型来拟合该数据集特征向量的各个分量之间的关系，对于需要预测结果的新数据，我们利用已经拟合好的线性模型来预测其结果。关于线性回归的方法，现在使用得比较广泛的就是梯度下降和最小二乘法；我打算把最小二乘法和梯度下降分两篇博客来写，这篇就来说一说我对线性回归及最小二乘法的理解以及原理实现。线性模型在二维空间中就是一条直线，在三维空间是一个平面，高维空间的线性模型不好去描述长什么样子；如果这个数据集能够用一个线性模型来拟合它的数据关系，不管

2020-06-19 17:41:55 1696 1

原创 [机器学习-实践篇]学习之线性回归、岭回归、Lasso回归，tensorflow实现的线性回归

线性回归、岭回归、Lasso回归前言1.线性回归2. 岭回归3. Lasso回归4. tensorflow实现的线性回归前言本章主要介绍线性回归、岭回归、Lasso回归，tensorflow实现的线性回归的简单例子代码。原理篇看这里[机器学习-原理篇]学习之线性回归、岭回归、Lasso回归1.线性回归from sklearn import linear_modeldef test_linearRegression(X, y): clf = linear_model.LinearRegr

2020-06-18 23:17:18 413

原创 [深度学习]为什么梯度反方向是函数值下降最快的方向？

为什么梯度反方向是函数值下降最快的方向1. 版本一用泰勒公式展开式解释1.1. 什么是梯度？1.2 梯度下降算法1.3 一阶泰勒展开式1.4 梯度下降数学原理1.5总结2.版本二用方向导数解释2.1 导数2.2. 偏导数2.3 方向导数1. 版本一用泰勒公式展开式解释1.1. 什么是梯度？对于梯度下降算法（Gradient Descent Algorithm），我们都已经很熟悉了。无论是在线性回归（Linear Regression）、逻辑回归（Logistic Regression）还是神经网络（N

2020-06-17 23:33:39 3407 1

原创 [深度学习-原理]BP神经网络

前言BP(back propagation)神经网络1. 什么是人工神经网络？首先给出一个经典的定义：“神经网络是由具有适应性的简单单元组成的广泛并行互连网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”[Kohonen, 1988]。这种说法虽然很经典，但是对于初学者并不是很友好。比如我在刚开始学习的时候就把人工神经网络想象地很高端，以至于很长一段时间都不能理解为什么神经网络能够起作用。类比最小二乘法线性回归问题，在求解数据拟合直线的时候，我们是采用某种方法让预测值和实际值的“偏差

2020-06-17 00:15:49 1738

原创 [可视化-tableau]tableau的学习实践入门篇

前言学习Tableau一定要亲自动手实践，如果有项目的话就更好了，这样可以快速上手。可以去官网下载Tableau desktop Tableau desktop 下载，下载的只能试用14天，如果还想继续使用，可以去淘宝上买一个激活码，或者去Tableau官网上买，如果是学生的话，就可以申请一个学生账号，好像是免费的，我一个同事申请成功了。看你自己的选择吧，然后就可以安心的边学边练了。下面是一个简单入门的例子，用来分析那些省份亏损最厉害。从下面的仪表板就可以很容易的看出亏损最厉害是浙江省，当然这些数据真

2020-06-14 16:55:06 1250

原创 [机器学习-原理篇]学习之线性回归、岭回归、Lasso回归

线性回归、岭回归、Lasso回归前言一，线性回归——最小二乘二，Lasso回归三，岭回归四， Lasso回归和岭回归的同和异五，为什么 lasso 更容易使部分权重变为 0 而 ridge 不行？参考资料前言如果对L1和L2正则化，最小二乘法不了解的，可以先看我写的下面两篇正则化项L1和L2的总结一元线性回归用最小二乘法的推导过程线性回归很简单，用线性函数拟合数据，用 mean square error (mse) 计算损失（cost），然后用梯度下降法找到一组使 mse 最小的权重。la

2020-06-10 00:14:18 1520

原创 [机器学习]正则化项L1和L2的学习与理解

正则化项L1和L2的学习与理解正则化（Regularization）稀疏模型与特征选择的关系L1和L2正则化的直观理解正则化和特征选择的关系正则化（Regularization）机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作 ℓ1\ell_1ℓ1-norm和 ell2ell_2ell2-norm，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失函数中的某些参数做一

2020-06-08 21:00:24 1118

原创 [机器学习-数学]什么是ESS/RSS/TSS

回归平方和 ESS，残差平方和 RSS，总体平方和 TSS总变差（TSS）：被解释变量Y的观测zhi值与其平均值dao的离差平方和（总平方和）(说明 Y 的总变动程度）解释了的变差（ESS）：被解释变量Y的估计值与其平均值的离差平方和（回归平方和）剩余平方和（RSS）：被解释变量观测值与估计值之差的平方和（未解释的平方和）他们的关系是TSS=RSS+ESSTSS: Total Sum of Squares 总离差平方和/总平方和ESS: Explained Sum of Squares

2020-06-08 18:02:41 21184

原创为什么梯度方向就是等高线的切线的垂直方向

1.前言在讲解梯度下降算法时，经常可以看到下面这张图(图片来自Wiki百科):这张图后面一般都会再接一句，梯度下降的方向与等高线的切线方向垂直。最开始的时候对这句话并没有多想，觉得这理所应当。不过突然有一天回过神来，为什么梯度下降方向与等高线的方向垂直啊？然后开始仔细考虑了一下这个问题。2.等高线看到知乎上的一幅图，能比较清楚地看出等高线的绘制过程，在此粘贴过来。3.梯度的定义梯度的概念是为了解决这么一个问题:函数在变量空间(变量的维度可能很高)的某一点，沿着那个方向有最大的变化率？梯

2020-06-04 16:31:44 5188

原创 [机器学习-回归算法]Sklearn之线性回归实战

Sklearn之线性回归实战一，前言二，热身例子三，一个贸易公司的简单例子四， Sklearn 官网里的一个例子参考资料一，前言一元线性回归的理论片请看我这个链接二，热身例子预测直线 y=1x1+2x2+3y = 1x_1 + 2x_2 +3y=1x1+2x2+3导入LinearRegression 从Sklearn.liear_model 包里from sklearn.linear_model import LinearRegression拟合数据也可以说是训练reg = Linea

2020-06-03 19:00:41 3872

原创 [软件工程-设计模式] GRASP软件设计的模式和原则

GRASP 模式前言1. 信息专家 (Information Expert)2. 创造者(Creator)3. Low coupling (低耦合)4. High cohesion (高内聚)5. 控制器 (Controller)6. Polymorphism (多态)7. 纯虚构 (Pure Fabrication)8. Indirection (中介)9. Protected Variations (受保护变化)前言每一个模式描述了一个在我们周围不断重复发生的问题，以及该问题的解决方案的核心。”这

2020-06-03 00:12:09 708

原创 [机器学习-回归算法]一元线性回归用最小二乘法的推导过程

一元线性回归算法在数据的统计分析中，数据之间即变量x与Y之间的相关性研究非常重要，通过在直角坐标系中做散点图的方式我们会发现很多统计数据近似一条直线，它们之间或者正相关或者负相关。虽然这些数据是离散的，不是连续的，我们无法得到一个确定的描述这种相关性的函数方程，但既然在直角坐标系中数据分布接近一条直线，那么我们就可以通过画直线的方式得到一个近似的描述这种关系的直线方程。当然，从前面的描述中不难看出，所有数据都分布在一条直线附近，因此这样的直线可以画出很多条，而我们希望找出其中的一条，能够最好地反映变量之间

2020-06-01 00:14:29 7299 3

Harry的博客