爱吃肉爱睡觉的Esther-CSDN博客

原创机器学习【西瓜书/南瓜书】--- 第3章线性模型（学习笔记+公式推导）

西瓜书+南瓜书第三章-线性模型

2023-01-23 20:02:33 316

原创机器学习【西瓜书/南瓜书】--- 第1章绪论+第二章模型选择和评估（学习笔记+公式推导）

机器学习西瓜书和南瓜书第一章绪论+第二章模型评估与选择

2023-01-17 22:22:47 930

1. 下载 Anaconda下载 Anaconda3-5.2.0-Linux-x86_64.sh (Ubuntu18.04的对应的Anaconda版本)：法1：在Anaconda官网下载，比较费时，如图1所示。法2：在清华大学开源软件镜像站下载，如图2和图3所示。2. 安装 Anaconda1)运行 .sh 文件：bash Anaconda3-5.2.0-Linux-x86_64.sh2）进入注册信息页面，输入yes；3）阅读注册信息，然后输入yes；查看文件即将安装的位置，按en

2021-05-13 16:20:44 7718 2

原创 RuntimeError: a leaf Variable that requires grad has been used in an in-place operation

Traceback (most recent call last):File “E:\迅雷下载\向量\000、代码+数据+课件\YOLO5\yolov5-master\train.py”, line 466, in train(hyp, opt, device, tb_writer)File “E:\迅雷下载\向量\000、代码+数据+课件\YOLO5\yolov5-master\train.py”, line 79, in trainmodel = Model(opt.cfg, ch=3, nc=

2021-03-26 13:16:59 6860 6

原创第六章连接

In [1]: import numpy as npIn [2]: import pandas as pd一、关系型连接1.连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作，例如学生期末考试各个科目的成绩表按照姓名和班级连接成总的成绩表，又例如对企业员工的各类信息表按照员工ID号进行连接汇总。由此可以看出，在关系型连接中，键是十分重要的，往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join

2020-12-29 22:14:21 215

原创 Task06 - 场景案例显神通

数据可视化的图表种类繁多，各式各样，因此我们需要掌握如何在特定场景下使用特定的图表。数据可视化是为业务目的服务的，好的可视化图表可以起到清晰准确反映业务结果的目的，在选择使用何种图表时，通常我们需要首先考虑你想通过可视化阐述什么样的故事，受众是谁，以及打算如何分析结果。关于如何利用数据创造出吸引人的、信息量大的、有说服力的故事，进而达到有效沟通的目的，可以进一步阅读这本书《用数据讲故事》 4学习。本章将介绍不同场景适合的可视化图表类型，使用注意事项，以及如何用现成的绘图接口来呈现。我们将常见的场景分

2020-12-27 21:34:38 171

原创不讲武德-炼丹与品尝

3.6、训练与测试3.6.1 模型训练前面的章节，我们已经对目标检测训练的各个重要的知识点进行了讲解，下面我们需要将整个流程串起来，对模型进行训练。目标检测网络的训练大致是如下的流程：设置各种超参数定义数据加载模块 dataloader定义网络 model定义损失函数 loss定义优化器 optimizer遍历训练数据，预测-计算loss-反向传播首先，我们导入必要的库，然后设定各种超参数import time

2020-12-27 20:36:44 149

原创第五章变形

In [1]: import numpy as npIn [2]: import pandas as pd一、长宽表的变形什么是长表？什么是宽表？这个概念是对于某一个特征而言的。例如：一个表中把性别存储在某一个列中，那么它就是关于性别的长表；如果把性别作为列名，列中的元素是某一其他的相关特征数值，那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表：In [3]: pd.DataFrame({'Gender':['F','F','M','M'], ...:

2020-12-27 19:04:31 134

原创第四章分组

In [1]: import numpy as npIn [2]: import pandas as pd一、分组模式及其对象1.分组的一般模式分组操作在日常生活中使用极其广泛，例如：依据性别分组，统计全国人口寿命的平均值依据季节分组，对每一个季节的温度进行组内标准化依据班级分组，筛选出组内数学分数的平均值超过80分的班级从上述的几个例子中不难看出，想要实现分组操作，必须明确三个要素：分组依据、数据来源、操作及其返回结果。同时从充分性的角度来说

2020-12-25 22:39:14 160

原创 Task05 - 样式色彩秀芳华

一、matplotlib的绘图样式（style）在matplotlib中，要想设置绘制样式，最简单的方法是在绘制元素时单独设置样式。但是有时候，当用户在做专题报告时，往往会希望保持整体风格的统一而不用对每张图一张张修改，因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用，使用方法很简单，只需在python脚本的最开始输入想使用style的名称即可调用，尝试调用不同内置样式，比较区别import m

2020-12-24 22:12:11 121

原创 Task03: 化劲儿-损失函数设计

3.5 损失函数3.5.1 Matching strategy (匹配策略)：我们分配了许多prior bboxes，我们要想让其预测类别和目标框信息，我们先要知道每个prior bbox和哪个目标对应，从而才能判断预测的是否准确，从而将训练进行下去。不同方法 ground truth boxes 与 prior bboxes 的匹配策略大致都是类似的，但是细节会有所不同。这里我们采用SSD中的匹配策略，具体如下：第一个原则：从ground truth box出发，寻找与每一个ground tr

2020-12-22 23:12:10 188

原创 Task04 - 文字图例尽眉目

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持，包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API：matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s

2020-12-22 22:57:36 197

原创第三章索引

In [1]: import numpy as npIn [2]: import pandas as pd一、索引器表的列索引列索引是最常见的索引形式，一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列，返回值为 Series ，例如从表中取出姓名一列：In [3]: df = pd.read_csv('data/learn_pandas.csv', ...: usecols = ['School', 'Grade',

2020-12-22 22:18:28 170

原创 Task03 - 布局格式定方圆

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一、子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表，第一个数字为行，第二个为列figsize 参数可以指定整个画布的大小sharex

2020-12-20 19:50:22 148

原创第二章 pandas基础

In [1]: import numpy as npIn [2]: import pandas as pd在开始学习前，请保证 pandas 的版本号不低于如下所示的版本，否则请务必升级！请确认已经安装了 xlrd, xlwt, openpyxl 这三个包，其中xlrd版本不得高于 2.0.0 。In [3]: pd.__version__Out[3]: '1.1.5'一、文件的读取和写入文件读取pandas 可以读取的文件格式有很多，这里主要介绍读取 csv, excel, txt

2020-12-19 21:04:53 262 1

原创 3.3 锚框 or 先验框

3.3.1 关于先验框在众多经典的目标检测模型中，均有先验框的说法，有的paper(如Faster RCNN)中称之为anchor(锚点)，有的paper(如SSD)称之为prior bounding box(先验框)，实际上是一个概念。那么，为什么要有先验框这个概念呢？按理说我们的图片输入模型，模型给出检测结果就好了，为什么还要有先验框？那么关于它的作用，我们不妨回顾一下前面在2.1节所说的那个目标检测最初的解决方案，我们说，我们要遍历图片上每一个可能的目标框，再对这些框进行分类和微调，就可以完

2020-12-19 20:13:10 871 1

原创 Task02 - 艺术画笔见乾坤

一、概述1.matplotlib的三层apimatplotlib的原理或者说基础逻辑是，用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似：准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区，所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器，可以近似理解为画笔

2020-12-18 20:30:08 187 2

原创两个年轻人-目标检测基础和VOC数据集

3.1 目标检测基本概念3.1.1 什么是目标检测目标检测是计算机视觉中的一个重要任务，近年来传统目标检测方法已经难以满足人们对目标检测效果的要求，随着深度学习在计算机视觉任务上取得的巨大进展，目前基于深度学习的目标检测算法已经成为主流。相比较于基于深度学习的图像分类任务，目标检测任务更具难度。具体区别如图3-1所示。图像分类：只需要判断输入的图像中是否包含感兴趣物体。目标检测：需要在识别出图片中目标类别的基础上，还要精确定位到目标的具体位置，并用外接矩形框标出。3.1.2 目标检测的思路自

2020-12-15 23:15:15 410

原创 pandas_第一章预备知识

一、Python基础列表推导式与条件赋值在生成一个数字序列的时候，在 Python 中可以如下写出：In [1]: L = []In [2]: def my_func(x): ...: return 2*x ...: In [3]: for i in range(5): ...: L.append(my_func(i)) ...: In [4]: LOut[4]: [0, 2, 4, 6, 8]事实上可以利用列表推导式进行写法上的简化： [

2020-12-15 22:40:12 150

原创 Task01 - Matplotlib初相识

第一回：Matplotlib初相识一、认识matplotlibMatplotlib是一个Python 2D绘图库，能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形，用来绘制各种静态，动态，交互式的图表。Matplotlib可用于Python脚本，Python和IPython Shell、Jupyter notebook，Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗，它已经成为python中公认的数据可视化工具，我们所熟知的pand

2020-12-13 11:16:31 194 1

原创零基础入门推荐系统【排序模型+模型融合】Task5

排序模型通过召回的操作，我们已经进行了问题规模的缩减，对于每个用户，选择出了N篇文章作为了候选集，并基于召回的候选集构建了与用户历史相关的特征，以及用户本身的属性特征，文章本省的属性特征，以及用户与文章之间的特征，下面就是使用机器学习模型来对构造好的特征进行学习，然后对测试集进行预测，得到测试集中的每个候选集用户点击的概率，返回点击概率最大的topk个文章，作为最终的结果。排序阶段选择了三个比较有代表性的排序模型，它们分别是：LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了

2020-12-06 23:14:25 265

原创零基础入门推荐系统【特征工程】Task4

制作特征和标签，转成监督学习问题我们先捋一下基于原始的给定数据，有哪些特征可以直接利用：文章的自身特征， category_id表示这文章的类型， created_at_ts表示文章建立的时间，这个关系着文章的时效性，words_count是文章的字数，一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征，这个召回的时候用过，这里可以选择使用，也可以选择不用，也可以尝试其他类型的embedding特征，比如W2V等用户的设备特征信息上面

2020-12-03 22:57:38 123

原创 pytorch快速安装【清华源】

step1：安装anacoda下载地址bash Anaconda3-2018.12-Linux-x86_64.shstep2：按照官网的方法安装pytorchconda install pytorch torchvision cudatoolkit=10.0 -c pytorch在此期间你会发现特别的慢，慢也就算了主要它还老安装不成功补充说明：在用conda安装软件的过程中还会经常遇到的一个问题，就是：软件太大老是下载中断我要下载一个软件，conda会告诉我这个软件底层依赖好几个其他的软

2020-12-03 19:05:52 131

原创零基础入门推荐系统【多路召回】Task3

多路召回所谓的“多路召回”策略，就是指采用不同的策略、特征或简单模型，分别召回一部分候选集，然后把候选集混合在一起供后续排序模型使用，可以明显的看出，“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中，各种简单策略保证候选集的快速召回，从不同角度设计的策略保证召回率接近理想的状态，不至于损伤排序效果。如下图是多路召回的一个示意图，在多路召回中，每个策略之间毫不相关，所以一般可以写并发多线程同时进行，这样可以更加高效。上图只是一个多路召回的例子，也就是说可以使用多种不同的策略来获取用户

2020-11-30 22:57:41 175

原创零基础入门新闻推荐_数据分析Task2

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据，具体的文件中的每个字段表示什么实际含义，以及数据集中特征之间的相关性，在推荐场景下主要就是分析用户本身的基本属性，文章基本属性，以及用户和文章交互的一些分布，这些都有利于后面的召回策略的选择，以及特征工程。建议：当特征工程和模型调参已经很难继续上分了，可以回来在重新从新的角度去分析这些数据，或许可以找到上分的灵感导包%matplotlib inlineimport pandas as pdimport numpy

2020-11-27 20:20:29 357

原创新闻推荐系统Task1

赛题理解赛题理解是切入一道赛题的基础，会影响后续特征工程和模型构建等各种工作，也影响着后续发展工作的方向，正确了解赛题背后的思想以及赛题业务逻辑的清晰，有利于花费更少时间构建更为有效的特征模型，在各种比赛中，赛题理解都是极其重要且必须走好的第一步，今天我们就从赛题的理解出发，首先了解一下这次赛题的概况和数据，从中分析赛题以及大致的处理方式，其次我们了解模型评测的指标，最后对赛题的理解整理一些经验。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛，该赛题是以新闻APP中的新闻推荐为

2020-11-25 22:50:31 603

原创百度图像分割七日打卡

课程心得：1、paddlepaddle类似于tensorflow一样，我们只需要将我们想要的内容的进行编辑即可，框架已经在paddlepaddle里封装，我们直接调用即可，很方便。2、图像分割作为图像领域中一个热点，能够进行系统的从基础开始学起，并且根据论文学习，能够快速高效的明白其中的原理，课堂中老师亲自敲写代码，并且能够有条不紊的教导大家如何根据思路进行代码的书写。3、朱老师说，数据+模型+训练是基本的3步走，要打好这方面的基础。其中数据是指：预处理，比如一些平移、裁剪、旋转、翻转，模型是针对你

2020-10-26 10:11:44 148

空空如也

空空如也