- 博客(30)
- 收藏
- 关注
原创 西瓜书与南瓜书chapter01-02
西瓜书与南瓜书CHAPTER01-02前两章内容总结第一章第二章前两章内容总结第一章的内容主要是对于机器学习中常见的基本概念比如说“模型”、“数据”、“假设空间”等进行了介绍,而第二章则是从模型评估与选择的层面进行了讲解。第一章涉及到的基础概念:数据集:记录的集合样本:对一个事件或者对象的描述属性:反映事件或者对象在某方面的表现或者性质属性空间:属性形成的空间特征向量:属性空间中每个点对应的坐标向量分类问题:预测的是离散值回归问题:预测的是连续值学习任务:监督学习+无监督学习泛化
2021-10-12 20:21:22 171
原创 【集成学习-组队学习】4.对模型超参数进行调优(调参)
对模型超参数进行调优(调参):之前的讨论中,对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是对于这其中参数的选取并没有给出很好的解决方法,那么能不能找到一种方法找到最优的参数λ\lambdaλ?这实际上涉及到最优化内容。首先要区分参数与超参数,如果要用一句话概括:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。以我接触过的高斯分布混合模型(GMM)
2021-03-24 20:23:41 1470
转载 【集成学习-组队学习】3.优化基础模型
优化基础模型在回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上,那这时候模型在训练集的损失值也就是误差为0。那么这样我们的模型是否就可以预测任意情况呢?答案是显然否定的。我们建立机器学习
2021-03-22 22:15:20 287
转载 【集成学习-组队学习】2.使用sklearn构建完整的机器学习项目流程
使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:1.明确项目任务:回归 / 分类2.收集数据集并选择合适的特征。3.选择度量模型性能的指标。4.选择具体的模型并进行训练以优化模型。5.评估模型的性能并调参。下面我们以一个例子来进行上述步骤的实践:1.明确项目任务:回归 / 分类本次实践我们进行回归分析2.收集数据集并选择合适的特征:在数据集上使用导论中提到的Boston房价数据集,因为简单容易操作。如下导入数据:from sklearn
2021-03-18 22:27:27 330
原创 【集成学习-组队学习】导论
从机器学习算法本身来看,可分为监督学习、非监督学习、半监督学习、增强学习。针对于本次自学的内容,主要以回归、分类的集成学习问题为主,因此主要学习监督学习:监督学习:给机器的训练数据拥有标记或标签的学习方式是监督学习。监督学习主要处理分类、回归问题,最常见的监督学习算法主要有以下几种:1. 朴素贝叶斯(Naive Bayes Classifier)朴素贝叶斯算法(NBC) 是应用最为广泛的分类算法之一。NBC假设了数据集属性之间是相互独立的,常用于文本分类。2. 决策树(Decision Tree
2021-03-16 00:47:53 267 1
原创 异常检测——TASK 05 高维数据的异常检测
1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。也即,一小部分的测量
2021-01-24 23:37:38 173
原创 异常检测——TASK 04 基于相似度的方法
这里画图解释一下上面说的L1,L2邻居:我们可以根据以上的一些人为定义,结合上面的图观察到以下三条性质:单元格中两点之间的距离最多为D/2 。(如下图d=2时)一个点与 L1邻接点之间的距离最大为 D。一个点与它的 Lr 邻居(其中 r >2)中的一个点之间的距离至少为 D。下面是代码部分:...
2021-01-21 23:05:07 289 2
原创 异常检测——TASK 03 线性模型
2.以breast-cancer-unsupervised-ad数据集为例做一些简单的数据可视化。import warnings warnings.filterwarnings('ignore') import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import missingno as msno## 1) 载入训练集和测试集;f=open('breas.
2021-01-18 21:38:14 242 3
原创 异常检测——TASK 02 基于统计学的方法
找了个图帮助理解https://blog.csdn.net/qq_40771567/article/details/108400598下面是对应的一元异常点检测的编程实现:(部分代码修改自上面链接中)import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 随机生成的数据data = np.random.randn(50000)*50 + 20 sns.boxplot(data=data).
2021-01-15 17:28:35 191
原创 异常检测——TASK 01异常检测概述
1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1.1 异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集合
2021-01-12 11:36:59 449
原创 动手学数据分析第三章模型建立和评估---评价
第三章 模型搭建和评估-评估加载下面的库import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Imagefrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier%m
2020-08-26 16:53:22 400
原创 动手学数据分析第三章模型建立和评估--建模
第三章 模型搭建和评估–建模经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。我们拥有的泰坦尼克号的数
2020-08-26 16:48:47 878
原创 动手学数据处理第二章:第四节数据可视化
2 第二章:数据可视化开始之前,导入numpy、pandas以及matplotlib包和数据# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib具体作用是当你调用ma
2020-08-25 00:17:52 474
原创 动手学数据分析第二章:第三节数据重构2
开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入上一个任务保存的文件:result.csv,并查看这个文件text = pd.read_csv('result.csv')text.head() Unnamed: 0 PassengerId Survived Pclass Name Sex
2020-08-23 22:37:13 190
原创 动手学数据分析第二章:第二节数据重构1
开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('data/train-left-up.csv')text.head() PassengerId Survived Pclass Name
2020-08-23 22:35:55 281
原创 动手学数据分析:第二章task1_数据清洗及特征处理-课程
开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvtrain=pd.read_csv('train.csv')train.head() PassengerId Survived Pclass Name Sex Age SibSp Parch
2020-08-21 17:57:46 505
原创 数据分析第一章task1_探索性数据分析
1 第一章:探索性数据分析开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#载入之前保存的train_chinese.csv数据,关于泰坦尼克号的任务,我们就使用这个数据text = pd.read_csv('train_chinese.csv')text.head() 乘客ID 是否幸存 仓位等级 姓名 性别
2020-08-19 21:52:27 308
原创 数据分析第一章task1_pandas基础
1 第一章:数据载入及初步观察1.4 知道你的数据叫什么我们学习pandas的基础操作,那么上一节通过pandas加载之后的数据,其数据类型是什么呢?开始前导入numpy和pandasimport numpy as npimport pandas as pd1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子????[开放题]#写入代码data1={'tom':2500,'jack':4500,'m
2020-08-19 21:51:39 746
原创 数据分析task1数据载入及初步观察
在这里我直接导入的jupyter notebook文件1 第一章:数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一:导入numpy和pandas#写入代码import numpy as npimport pandas as pd【提示】如果加载失败,学会如何在你的python环境下安装numpy和pandas这两个库1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对
2020-08-19 21:49:57 437
原创 mysql报错记录
# 使用预处理语句创建表sql= """CREATE TABLE JINGDONG( TITLE VARCHAR(100), BRAND CHAR(20), URL CHAR(50), DETAIL longtext(500)) """报错:ProgrammingError: (1064, “You have an error in your SQL syntax; check the manual th
2020-08-11 10:19:41 175
原创 siammask代码阅读(2)siammask.py
先是全部代码:# --------------------------------------------------------# SiamMask# Licensed under The MIT License# Written by Qiang Wang (wangqiang2015 at ia.ac.cn)# --------------------------------------------------------import torchimport torch.nn as nn
2020-08-06 22:19:12 1045
原创 siammask代码阅读(3)siammask.py和siammask_sharp.py区别
1.siammask.py里面:class SiamMask(nn.Module): def __init__(self, anchors=None, o_sz=63, g_sz=127):siammask_sharp.py里面 class SiamMask(nn.Module): def __init__(self, anchors=None, o_sz=127, g_sz=127):第一个是参数o_sz=63改成了1272.siammask.py里面: def run(se
2020-08-06 15:31:25 480
原创 siammask代码(1)demo.py阅读查询
参考:https://zhuanlan.zhihu.com/p/76460186先看demo.py,看的过程中会跳到demo涉及的其他模块,记住统统选择sharp版本。接着看train_siammask_refine.py,看的过程中会跳到dataset模块,记住原图怎么生成的训练数据和label。很重要的一点,在看的过程中,要记得各种数据的维度,比如(4,5,3,3),(5,3,3),这样可以帮你很好的确定每个功能模块的作用。...
2020-08-03 20:26:15 680
原创 SELFLOW代码自学1
我啥也不会,以下注释不保证正确,如有错误欢迎指出import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltimport reimport sysdef read_flo(filename): with open(filename, 'rb') as f:#https://blog.csdn.net/msspark/article/details/86745391#rb: 以二进制格式打开一个文件用
2020-07-28 15:40:42 471
原创 ubuntu18.04安装docker
前期步骤可以参考这个https://blog.csdn.net/LuffysMan/article/details/89393965安装的时候我遇到了一些问题:在deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable这一步,注意要打开/etc/apt/sources.list.d/docker.list文件,否则会弹出以下的错误:No command 'deb' found, did you mean: Com
2020-07-12 10:02:04 341
原创 计算机视觉实践-Task5 模型集成
5.1 学习目标学习集成学习方法以及交叉验证情况下的模型集成学会使用深度学习模型的集成学习5.2 集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证,训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行
2020-06-02 21:42:33 249
原创 计算机视觉实践 Task2 数据读取与数据扩增
本章主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 学习目标 学习Python和Pytorch中图像读取 学会扩增方法和Pytorch读取赛题数据2.2 图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。2.2.1 PillowPillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取
2020-05-22 19:23:17 471 1
原创 计算机视觉实践Task01:赛题理解
**计算机视觉实践(街景字符编码识别)**Task01:赛题理解(2天)学习目标 理解赛题背景和赛题数据 完成赛题报名和数据下载, 理解赛题的解题思路 了解赛题首先对电脑的环境进行配置:conda create -n environment_name python=X.X“environment_name”是要创建的环境名;“python=X.X”是选择的Python版本,我的相关代码为: conda create -n py37_torch131 python=3.7然后
2020-05-20 17:27:05 423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人