weixin_41948788-CSDN博客

原创街景字符编码识别赛事Task5

在集成学习理论中，我们将弱学习器（或基础模型）称为「模型」，这些模型可用作设计更复杂模型的构件。在大多数情况下，这些基本模型本身的性能并不是非常好，这要么是因为它们具有较高的偏置（例如，低自由度模型），要么是因为他们的方差太大导致鲁棒性不强（例如，高自由度模型）。组合弱学习器 bagging，该方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。 boosting，该方法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器（每个基础

2020-06-02 21:27:46 130

原创街景字符编码识别赛事Task4

并不是拟合效果好就是最佳的模型，必须要能够被验证。当我们需要预测某个模型的真实“预测”效果时，我们需要具体的评价模型的预测效果，即使在训练集中有比较好的预测效果，在验证集中也不见得理想，这里涉及到模型的交叉验证和变量的相对重要性分析。交叉验证：将一定比例的数据挑选出来作为训练样本，另外的样本保留，先在训练样本上获取回归方程，再到保留样本上预测。一：简单的交叉验证：由于测试集和训练集是分开的，可以避免过拟合的现象，随机性太大，说服力不强 1、从全部的训练数据 S中随机选择中随机选择 s的样例作为训练集

2020-05-30 21:28:35 116

原创街景字符编码识别赛事Task03

之前的baseline中的模型是建立在resnet的预训练模型的基础之上的。将其中的池化层的属性从平均池化层修改为了自适应池化层再将最后的全连接修改了因为此次分类的种类数是11 所以全连接层的输出个数是11 class SVHN_Model1(nn.Module): def __init__(self): super(SVHN_Model1, self).__init__() model_conv = models.resnet

2020-05-26 20:53:08 146

原创街景字符编码识别赛事Task02

以下代码是在CPU版本的pytorch1.5中运行的之前用的1.4版本总是不行如果要运行GPU版本的需要将use_CUDA的属性变更为True 建议使用GPU版本的因为CPU版本的实在太慢了没有必要运行10个epoch 因为到了第5个epoch左右的话就会出现过拟合了。这个初代的模型的准确率只有1/3左右后期将继续进行一些优化和调参的工作 import os, sys, glob, shutil, json # os.environ["CUDA_VISIBLE_DEVICES"] = '0'

2020-05-23 21:40:41 120

原创街景字符编码识别赛事Task01-赛事理解

赛题来源自Google街景图像中的门牌号数据集（The Street View House Numbers Dataset, SVHN），并根据一定方式采样得到比赛数据集。训练集数据包括3W张照片，验证集数据包括1W张照片，每张照片包括颜色图像和对应的编码类别和具体位置；为了保证比赛的公平性，测试集A包括4W张照片，测试集B包括4W张照片。运行系统要求：Python2/3，内存4G，有无GPU都可以。用CPU跑的话会比较慢。具体的流程包含以下几块： 1：引入必要的模块包括PIL模块 numpy模块

2020-05-20 22:30:57 98

原创计算机视觉算法入门Task06

Sobel算子 Canny边缘检测完成一个canny边缘检测需要以下四步： 1：高斯滤波 2.计算梯度强度和方向 3：非极大值抑制代码演示 # -*- coding: utf-8 -*- """ cv2.Sobel(src, #参数是需要处理的图像； ddepth, #图像的深度，-1表示采用的是与原图像相同的深度。目标图像的深度必须大于等于原图像的深度 dx,...

2020-05-01 22:30:41 175

原创机器学习算法入门Task05

2020-05-01 22:30:10 76

原创机器学习算法入门Task04

import numpy as np class CRF(object): '''实现条件随机场预测问题的维特比算法 ''' def __init__(self, V, VW, E, EW): ''' :param V:是定义在节点上的特征函数，称为状态特征 :param VW:是V对应的权值 :...

2020-04-29 22:56:56 81

原创计算机视觉基础Task05

最大类间方差法（大津阈值法）大津法（OTSU）是一种确定图像二值化分割阈值的算法，由日本学者大津于1979年提出。从大津法的原理上来讲，该方法又称作最大类间方差法，因为按照大津法求得的阈值进行图像二值化分割后，前景与背景图像的类间方差最大。它被认为是图像分割中阈值选取的最佳算法，计算简单，不受图像亮度和对比度的影响，因此在数字图像处理上得到了广泛的应用。它是按图像的灰度特性，将图像分成背景和前...

2020-04-29 22:56:35 253

原创计算机视觉Task04

图像的实质是一种二维信号，滤波是信号处理中的一个重要概念。在图像处理中，滤波是一种非常常见的技术，它的原理非常简单，但是其思想却十分值得借鉴，滤波是很多图像算法的前置步骤或基础，掌握图像滤波对理解卷积神经网络也有一定帮助。 1. 滤波分类线性滤波：对邻域中的像素的计算为线性运算时，如利用窗口函数进行平滑加权求和的运算，或者某种卷积运算，都可以称为线性滤波。常见的线性滤波有：均值滤波、高斯滤波、...

2020-04-27 21:32:26 126

原创爬虫入门Task04

用selenium完成腾讯热点的爬虫存储成csv文件每一行如下标号（从1开始）,标题,链接 import time from selenium import webdriver driver=webdriver.Chrome(executable_path= 'C:\Program Files (x86)\Google\Chrome\Application\chromedriver.ex...

2020-04-27 21:31:41 92

原创计算机视觉Task03

图像彩色空间互转在图像处理中应用非常广泛，而且很多算法只对灰度图有效；另外，相比RGB，其他颜色空间(比如HSV、HSI)更具可分离性和可操作性，所以很多图像算法需要将图像从RGB转为其他颜色空间，所以图像彩色互转是十分重要和关键的。 RGB与灰度图互转 RGB（红绿蓝）是依据人眼识别的颜色定义出的空间，可表示大部分颜色。但在科学研究一般不采用RGB颜色空间，因为它的细节难以进行数字化的调整。它将...

2020-04-27 00:08:07 102

原创机器学习算法Task03

EM算法整体上分为两个步骤： E:求期望 M:求最大值概率模型有时候既含有观测变量，又含有隐变量或潜在变量，如果概率模型的变量都是观测变量，那么给定数据，可以直接用极大似然估计法，或贝叶斯估计方法估计模型参数，但是当模型含有隐变量时，就不能简单的使用这些方法，EM算法就是含有隐变量的概率模型参数的极大似然估计法，或极大后验概率估计法。 EM算法的整体步骤如下图所示： EM算法公式的推导过程中...

2020-04-27 00:07:24 158

原创爬虫入门Task03

为什么会出现IP被封网站为了防止被爬取，会有反爬机制，对于同一个IP地址的大量同类型的访问，会封锁IP，过一段时间后，才能继续访问。如何应对IP被封的问题有几种套路：修改请求头，模拟浏览器（而不是代码去直接访问）去访问采用代理IP并轮换设置访问时间间隔如何获取代理IP地址从该网站获取： https://www.xicidaili.com/ inspect -> 鼠标定位：要...

2020-04-25 20:18:31 117

原创机器学习算法Task02

sklearn接口 from sklearn.naive_bayes import GaussianNB from sklearn.datasets import load_iris import pandas as pd from sklearn.model_selection import train_test_split iris = load_iris() X_train, X_test,...

2020-04-23 21:25:37 128

原创计算机视觉Task02

仿射变换的一般形式如下：一些常见的变换矩阵及作用如下表对于旋转和偏移，就需要3步（3次变换）：将输入原图图像坐标转换为笛卡尔坐标系；进行旋转计算。旋转矩阵前面已经给出了；将旋转后的图像的笛卡尔坐标转回图像坐标。案例代码（C++） 1：旋转 cv::Mat src = cv::imread("lenna.jpg"); cv::Mat dst; //旋转角度 doubl...

2020-04-23 21:17:12 143

原创爬虫入门Task02

学习Beautiful Soup库 Beautiful Soup库是解析、遍历、维护“标签树”的功能库，对应一个HTML/XML文档的全部内容 BeautifulSoup类的基本元素: # 导入bs4库 from bs4 import BeautifulSoup import requests # 抓取页面 r = requests.get('https://python123.io/ws/d...

2020-04-23 21:16:05 178

原创爬虫入门Task01

首先，整个文档是以 DOCTYPE 来开头的，这里定义了文档类型是 html ，整个文档最外层的标签是，并且结尾还以来表示闭和。这里简单讲一下，浏览器解析 HTML 的时候，并不强制需要每个标签都一定要有闭和标签，但是为了语义明确，最好每个标签都跟上对应的闭和标签。大家可以尝试删除其中的闭和标签进行尝试，并不会影响浏览器的解析。整个 HTML 文档一般分为 head 和 body 两个...

2020-04-21 20:26:16 101

原创机器学习Task01

线性回归的一般形式利用极大似然估计来理解最小化线性回归的误差利用sklearn实操线性回归

2020-04-21 20:12:59 86

原创 DateWhale计算机视觉基础Task01

在图像处理中，平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值，只是在图象平面上进行象素的重新排列。在一幅输入图象[u，v]中，灰度值仅在整数位置上有定义。然而，输出图象[x，y]的灰度值一般由处在非整数坐标上的（u，v）值来决定。这就需要插值算法来进行处理，常见的插值算法有最近邻插值、双线性插值和三次样条插值。 ...

2020-04-21 20:12:38 157

原创 Task05模型融合

模型融合简单来说就是通过对一组的基分类器以某种方式进行组合，以提升模型整体性能的方法。当然，模型融合不能起到决定性作用，在影响模型结果的因素中，一般来说是数据>特征>模型>模型融合。在业界流传着这么一句话，数据和特征决定了机器学习的上限，而模型和算法只是在逼近这个上限而已。简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geom...

2020-04-04 19:59:32 87

原创 Task04建模与调参

回归是一种应用广泛的预测建模技术，这种技术的核心在于预测的结果是连续型变量。决策树，随机森林，支持向量机的分类器等分类算法的预测标签是分类变量，多以{0，1}来表示，而无监督学习算法比如PCA，KMeans并不求解标签，注意加以区别。回归算法源于统计学理论，它可能是机器学习算法中产生最早的算法之一，其在现实中的应用非常广泛，包括使用其他经济指标预测股票市场指数，根据喷射流的特征预测区域内的降水量...

2020-04-01 20:13:37 75

原创 task03数据的特征工程

数据挖掘的五大流程：获取数据数据预处理数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程。可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小。数据预处理的目的：让数据适应模型，匹配模型的需求。特征工程：特征工...

2020-03-28 19:18:14 93

原创 TASK02数据的探索性分析

1：载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon； 2：载入数据集 3：总览数据

2020-03-24 20:37:00 69

原创 Task03

先占个坑回头完全懂了再来把word2vec的权重更新过程写完

2020-02-25 21:11:06 49

原创 Task01

向量相加的一种方法是，将这两个向量按元素逐一做标量加法。向量相加的另一种方法是，将这两个向量直接做矢量加法。 time模块的显示后者比前者运算速度更快。因此，我们应该尽可能采用矢量计算，以提升计算效率。线性回归流程： 1：建立数据集：首先将将每个点加上随机噪声 2：读取数据集：随机在打乱的1000个索引中选取10个索引作为每次迭代的样本的索引 3：初始化模型参数：随机初始化即W和b 4...

2020-02-14 19:28:15 102

原创第三次任务

2：决策树的不同分类算法在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起作用，所以有观点认为这种切分方式过于迅速。 ID3采用的信息增益度量存在一个缺点，它一般会优先选择有较多属性值的Feature,因为属性值多的Feature会有相对较大的信...

2019-04-03 20:36:42 100

原创 Task02

1：逻辑回归与线性回归的联系与区别答：逻辑回归与线性回归都属于广义线性回归模型。线性回归中使用的是最小化平方误差损失函数，对偏离真实值越远的数据惩罚越严重；逻辑回归使用对数似然函数进行参数估计，使用交叉熵作为损失函数。逻辑回归首先把样本映射到[0,1]之间的数值，这就归功于sigmoid函数，可以把任何连续的值映射到[0,1]之间，数越大越趋向于0，越小越趋近于1。 2：逻辑回归的原理答：...

2019-04-01 20:09:31 196

原创第一次任务

1：机器学习的一些基本概念：根据训练数据是否拥有标记信息，学习任务可以分成“监督学习”和“非监督学习”两大类，分类和回归是前者的代表，聚类是后者的代表。泛化是指机器通过学习得出的模型对于未知数据的预测能力。过拟合是指机器学习得到的模型将训练样本自身的一些特点当做了所有的潜在样本都具有的一般性质，这样会导致模型额定泛化能力下降。欠拟合和过拟合是相对的，它对训练样本的一般性质尚未学好。交叉验...

2019-03-29 20:24:25 276

weixin_41948788的博客