自学
文章平均质量分 88
L1315382539
这个作者很懒,什么都没留下…
展开
-
西瓜书与南瓜书chapter01-02
西瓜书与南瓜书CHAPTER01-02前两章内容总结第一章第二章前两章内容总结第一章的内容主要是对于机器学习中常见的基本概念比如说“模型”、“数据”、“假设空间”等进行了介绍,而第二章则是从模型评估与选择的层面进行了讲解。第一章涉及到的基础概念:数据集:记录的集合样本:对一个事件或者对象的描述属性:反映事件或者对象在某方面的表现或者性质属性空间:属性形成的空间特征向量:属性空间中每个点对应的坐标向量分类问题:预测的是离散值回归问题:预测的是连续值学习任务:监督学习+无监督学习泛化原创 2021-10-12 20:21:22 · 178 阅读 · 0 评论 -
【集成学习-组队学习】4.对模型超参数进行调优(调参)
对模型超参数进行调优(调参):之前的讨论中,对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是对于这其中参数的选取并没有给出很好的解决方法,那么能不能找到一种方法找到最优的参数λ\lambdaλ?这实际上涉及到最优化内容。首先要区分参数与超参数,如果要用一句话概括:模型参数是模型内部的配置变量,可以用数据估计模型参数的值;模型超参数是模型外部的配置,必须手动设置参数的值。以我接触过的高斯分布混合模型(GMM)原创 2021-03-24 20:23:41 · 1484 阅读 · 0 评论 -
【集成学习-组队学习】导论
从机器学习算法本身来看,可分为监督学习、非监督学习、半监督学习、增强学习。针对于本次自学的内容,主要以回归、分类的集成学习问题为主,因此主要学习监督学习:监督学习:给机器的训练数据拥有标记或标签的学习方式是监督学习。监督学习主要处理分类、回归问题,最常见的监督学习算法主要有以下几种:1. 朴素贝叶斯(Naive Bayes Classifier)朴素贝叶斯算法(NBC) 是应用最为广泛的分类算法之一。NBC假设了数据集属性之间是相互独立的,常用于文本分类。2. 决策树(Decision Tree原创 2021-03-16 00:47:53 · 272 阅读 · 1 评论 -
异常检测——TASK 05 高维数据的异常检测
1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。一个物体可能有几个被测量的量,这个物体的显著异常行为可能只反映在这些量的一小部分中。也即,一小部分的测量原创 2021-01-24 23:37:38 · 180 阅读 · 0 评论 -
异常检测——TASK 04 基于相似度的方法
这里画图解释一下上面说的L1,L2邻居:我们可以根据以上的一些人为定义,结合上面的图观察到以下三条性质:单元格中两点之间的距离最多为D/2 。(如下图d=2时)一个点与 L1邻接点之间的距离最大为 D。一个点与它的 Lr 邻居(其中 r >2)中的一个点之间的距离至少为 D。下面是代码部分:...原创 2021-01-21 23:05:07 · 292 阅读 · 2 评论 -
动手学数据分析第三章模型建立和评估---评价
第三章 模型搭建和评估-评估加载下面的库import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Imagefrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestClassifier%m原创 2020-08-26 16:53:22 · 403 阅读 · 0 评论 -
动手学数据分析第三章模型建立和评估--建模
第三章 模型搭建和评估–建模经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。我们拥有的泰坦尼克号的数原创 2020-08-26 16:48:47 · 884 阅读 · 0 评论 -
动手学数据处理第二章:第四节数据可视化
2 第二章:数据可视化开始之前,导入numpy、pandas以及matplotlib包和数据# 加载所需的库# 如果出现 ModuleNotFoundError: No module named 'xxxx'# 你只需要在终端/cmd下 pip install xxxx 即可%matplotlib inlineimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib具体作用是当你调用ma原创 2020-08-25 00:17:52 · 483 阅读 · 0 评论 -
动手学数据分析第二章:第三节数据重构2
开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入上一个任务保存的文件:result.csv,并查看这个文件text = pd.read_csv('result.csv')text.head() Unnamed: 0 PassengerId Survived Pclass Name Sex原创 2020-08-23 22:37:13 · 195 阅读 · 0 评论 -
动手学数据分析第二章:第二节数据重构1
开始之前,导入numpy、pandas包和数据# 导入基本库import numpy as npimport pandas as pd# 载入data文件中的:train-left-up.csvtext = pd.read_csv('data/train-left-up.csv')text.head() PassengerId Survived Pclass Name原创 2020-08-23 22:35:55 · 289 阅读 · 0 评论 -
动手学数据分析:第二章task1_数据清洗及特征处理-课程
开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#加载数据train.csvtrain=pd.read_csv('train.csv')train.head() PassengerId Survived Pclass Name Sex Age SibSp Parch原创 2020-08-21 17:57:46 · 508 阅读 · 0 评论 -
数据分析第一章task1_探索性数据分析
1 第一章:探索性数据分析开始之前,导入numpy、pandas包和数据#加载所需的库import numpy as npimport pandas as pd#载入之前保存的train_chinese.csv数据,关于泰坦尼克号的任务,我们就使用这个数据text = pd.read_csv('train_chinese.csv')text.head() 乘客ID 是否幸存 仓位等级 姓名 性别原创 2020-08-19 21:52:27 · 309 阅读 · 0 评论 -
数据分析第一章task1_pandas基础
1 第一章:数据载入及初步观察1.4 知道你的数据叫什么我们学习pandas的基础操作,那么上一节通过pandas加载之后的数据,其数据类型是什么呢?开始前导入numpy和pandasimport numpy as npimport pandas as pd1.4.1 任务一:pandas中有两个数据类型DateFrame和Series,通过查找简单了解他们。然后自己写一个关于这两个数据类型的小例子????[开放题]#写入代码data1={'tom':2500,'jack':4500,'m原创 2020-08-19 21:51:39 · 751 阅读 · 0 评论 -
数据分析task1数据载入及初步观察
在这里我直接导入的jupyter notebook文件1 第一章:数据载入及初步观察1.1 载入数据数据集下载 https://www.kaggle.com/c/titanic/overview1.1.1 任务一:导入numpy和pandas#写入代码import numpy as npimport pandas as pd【提示】如果加载失败,学会如何在你的python环境下安装numpy和pandas这两个库1.1.2 任务二:载入数据(1) 使用相对路径载入数据(2) 使用绝对原创 2020-08-19 21:49:57 · 441 阅读 · 0 评论 -
SELFLOW代码自学1
我啥也不会,以下注释不保证正确,如有错误欢迎指出import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pltimport reimport sysdef read_flo(filename): with open(filename, 'rb') as f:#https://blog.csdn.net/msspark/article/details/86745391#rb: 以二进制格式打开一个文件用原创 2020-07-28 15:40:42 · 472 阅读 · 0 评论 -
计算机视觉实践-Task5 模型集成
5.1 学习目标学习集成学习方法以及交叉验证情况下的模型集成学会使用深度学习模型的集成学习5.2 集成学习方法在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。由于深度学习模型一般需要较长的训练周期,如果硬件设备不允许建议选取留出法,如果需要追求精度可以使用交叉验证的方法。下面假设构建了10折交叉验证,训练得到10个CNN模型。那么在10个CNN模型可以使用如下方式进行原创 2020-06-02 21:42:33 · 257 阅读 · 0 评论 -
计算机视觉实践-Task4 模型训练与验证
1原创 2020-05-30 21:33:08 · 607 阅读 · 0 评论 -
计算机视觉实践-Task3 字符识别模型
学习目标原创 2020-05-26 22:50:28 · 458 阅读 · 0 评论 -
计算机视觉实践 Task2 数据读取与数据扩增
本章主要内容为数据读取、数据扩增方法和Pytorch读取赛题数据三个部分组成。2.1 学习目标 学习Python和Pytorch中图像读取 学会扩增方法和Pytorch读取赛题数据2.2 图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。2.2.1 PillowPillow是Python图像处理函式库(PIL)的一个分支。Pillow提供了常见的图像读取原创 2020-05-22 19:23:17 · 473 阅读 · 1 评论 -
计算机视觉实践Task01:赛题理解
**计算机视觉实践(街景字符编码识别)**Task01:赛题理解(2天)学习目标 理解赛题背景和赛题数据 完成赛题报名和数据下载, 理解赛题的解题思路 了解赛题首先对电脑的环境进行配置:conda create -n environment_name python=X.X“environment_name”是要创建的环境名;“python=X.X”是选择的Python版本,我的相关代码为: conda create -n py37_torch131 python=3.7然后原创 2020-05-20 17:27:05 · 429 阅读 · 0 评论