自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(81)
  • 收藏
  • 关注

原创 机器学习【西瓜书/南瓜书】--- 第五章 神经网络

机器学习西瓜书+南瓜书-神经网络

2023-01-29 21:44:57 720

原创 机器学习【西瓜书/南瓜书】--- 第四章决策树

西瓜书+南瓜书--决策树

2023-01-26 21:02:45 783

原创 机器学习【西瓜书/南瓜书】--- 第3章 线性模型(学习笔记+公式推导)

西瓜书+南瓜书第三章-线性模型

2023-01-23 20:02:33 283

原创 机器学习【西瓜书/南瓜书】--- 第1章绪论+第二章模型选择和评估(学习笔记+公式推导)

机器学习西瓜书和南瓜书第一章绪论+第二章 模型评估与选择

2023-01-17 22:22:47 866

原创 Ubuntu18.04 安装 Anaconda3

1. 下载 Anaconda下载 Anaconda3-5.2.0-Linux-x86_64.sh (Ubuntu18.04的对应的Anaconda版本):法1:在Anaconda官网下载,比较费时,如图1所示。法2:在清华大学开源软件镜像站下载,如图2和图3所示。2. 安装 Anaconda1)运行 .sh 文件:bash Anaconda3-5.2.0-Linux-x86_64.sh2)进入注册信息页面,输入yes;3)阅读注册信息,然后输入yes;查看文件即将安装的位置,按en

2021-05-13 16:20:44 7680 2

原创 RuntimeError: a leaf Variable that requires grad has been used in an in-place operation

Traceback (most recent call last):File “E:\迅雷下载\向量\000、代码+数据+课件\YOLO5\yolov5-master\train.py”, line 466, in train(hyp, opt, device, tb_writer)File “E:\迅雷下载\向量\000、代码+数据+课件\YOLO5\yolov5-master\train.py”, line 79, in trainmodel = Model(opt.cfg, ch=3, nc=

2021-03-26 13:16:59 6752 6

原创 第六章 连接

In [1]: import numpy as npIn [2]: import pandas as pd一、关系型连接1.连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键 是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join

2020-12-29 22:14:21 188

原创 Task06 - 场景案例显神通

数据可视化的图表种类繁多,各式各样,因此我们需要掌握如何在特定场景下使用特定的图表。数据可视化是为业务目的服务的,好的可视化图表可以起到清晰准确反映业务结果的目的,在选择使用何种图表时,通常我们需要首先考虑你想通过可视化阐述什么样的故事,受众是谁,以及打算如何分析结果。关于如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而达到有效沟通的目的,可以进一步阅读这本书《用数据讲故事》 4学习。本章将介绍不同场景适合的可视化图表类型,使用注意事项,以及如何用现成的绘图接口来呈现。我们将常见的场景分

2020-12-27 21:34:38 148

原创 不讲武德-炼丹与品尝

3.6、训练与测试3.6.1 模型训练前面的章节,我们已经对目标检测训练的各个重要的知识点进行了讲解,下面我们需要将整个流程串起 来,对模型进行训练。目标检测网络的训练大致是如下的流程:设置各种超参数定义数据加载模块 dataloader定义网络 model定义损失函数 loss定义优化器 optimizer遍历训练数据,预测-计算loss-反向传播首先,我们导入必要的库,然后设定各种超参数import time

2020-12-27 20:36:44 131

原创 第五章 变形

In [1]: import numpy as npIn [2]: import pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:In [3]: pd.DataFrame({'Gender':['F','F','M','M'], ...:

2020-12-27 19:04:31 106

原创 第四章 分组

In [1]: import numpy as npIn [2]: import pandas as pd一、分组模式及其对象1.分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据 性别 分组,统计全国人口 寿命 的 平均值依据 季节 分组,对每一个季节的 温度 进行 组内标准化依据 班级 分组,筛选出组内 数学分数 的 平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果 。同时从充分性的角度来说

2020-12-25 22:39:14 141

原创 Task05 - 样式色彩秀芳华

一、matplotlib的绘图样式(style)在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别import m

2020-12-24 22:12:11 104

原创 Task03: 化劲儿-损失函数设计

3.5 损失函数3.5.1 Matching strategy (匹配策略):我们分配了许多prior bboxes,我们要想让其预测类别和目标框信息,我们先要知道每个prior bbox和 哪个目标对应,从而才能判断预测的是否准确,从而将训练进行下去。不同方法 ground truth boxes 与 prior bboxes 的匹配策略大致都是类似的,但是细节会有所不同。这 里我们采用SSD中的匹配策略,具体如下:第一个原则:从ground truth box出发,寻找与每一个ground tr

2020-12-22 23:12:10 162

原创 Task04 - 文字图例尽眉目

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API:matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(self, x, y, s

2020-12-22 22:57:36 175

原创 第三章 索引

In [1]: import numpy as npIn [2]: import pandas as pd一、索引器表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列:In [3]: df = pd.read_csv('data/learn_pandas.csv', ...: usecols = ['School', 'Grade',

2020-12-22 22:18:28 152

原创 Task03 - 布局格式定方圆

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False一、子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的大小sharex

2020-12-20 19:50:22 127

原创 第二章 pandas基础

In [1]: import numpy as npIn [2]: import pandas as pd在开始学习前,请保证 pandas 的版本号不低于如下所示的版本,否则请务必升级!请确认已经安装了 xlrd, xlwt, openpyxl 这三个包,其中xlrd版本不得高于 2.0.0 。In [3]: pd.__version__Out[3]: '1.1.5'一、文件的读取和写入文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt

2020-12-19 21:04:53 232 1

原创 3.3 锚框 or 先验框

3.3.1 关于先验框在众多经典的目标检测模型中,均有先验框的说法,有的paper(如Faster RCNN)中称之为anchor(锚 点),有的paper(如SSD)称之为prior bounding box(先验框),实际上是一个概念。那么,为什么要有先验框这个概念呢?按理说我们的图片输入模型,模型给出检测结果就好了,为什么 还要有先验框?那么关于它的作用,我们不妨回顾一下前面在2.1节所说的那个目标检测最初的解决方 案,我们说,我们要遍历图片上每一个可能的目标框,再对这些框进行分类和微调,就可以完

2020-12-19 20:13:10 779 1

原创 Task02 - 艺术画笔见乾坤

一、概述1.matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似:准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔

2020-12-18 20:30:08 161 2

原创 两个年轻人-目标检测基础和VOC数据集

3.1 目标检测基本概念3.1.1 什么是目标检测目标检测是计算机视觉中的一个重要任务,近年来传统目标检测方法已经难以满足人们对目标检测效果的要求,随着深度学习在计算机视觉任务上取得的巨大进展,目前基于深度学习的目标检测算法已经成为主流。相比较于基于深度学习的图像分类任务,目标检测任务更具难度。具体区别如图3-1所示。图像分类:只需要判断输入的图像中是否包含感兴趣物体。目标检测:需要在识别出图片中目标类别的基础上,还要精确定位到目标的具体位置,并用外接矩形框标出。3.1.2 目标检测的思路自

2020-12-15 23:15:15 386

原创 pandas_第一章 预备知识

一、Python基础列表推导式与条件赋值在生成一个数字序列的时候,在 Python 中可以如下写出:In [1]: L = []In [2]: def my_func(x): ...: return 2*x ...: In [3]: for i in range(5): ...: L.append(my_func(i)) ...: In [4]: LOut[4]: [0, 2, 4, 6, 8]事实上可以利用列表推导式进行写法上的简化: [

2020-12-15 22:40:12 129

原创 Task01 - Matplotlib初相识

第一回:Matplotlib初相识一、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟知的pand

2020-12-13 11:16:31 175 1

原创 零基础入门推荐系统【排序模型+模型融合】Task5

排序模型通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了

2020-12-06 23:14:25 215

原创 零基础入门推荐系统【特征工程】Task4

制作特征和标签, 转成监督学习问题我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性,words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用,也可以尝试其他类型的embedding特征, 比如W2V等用户的设备特征信息上面

2020-12-03 22:57:38 113

原创 pytorch快速安装【清华源】

step1:安装anacoda下载地址bash Anaconda3-2018.12-Linux-x86_64.shstep2:按照官网的方法安装pytorchconda install pytorch torchvision cudatoolkit=10.0 -c pytorch在此期间你会发现特别的慢,慢也就算了主要它还老安装不成功补充说明:在用conda安装软件的过程中还会经常遇到的一个问题,就是:软件太大老是下载中断我要下载一个软件,conda会告诉我这个软件底层依赖好几个其他的软

2020-12-03 19:05:52 105

原创 零基础入门推荐系统【多路召回】Task3

多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。上图只是一个多路召回的例子,也就是说可以使用多种不同的策略来获取用户

2020-11-30 22:57:41 149

原创 零基础入门新闻推荐_数据分析Task2

数据分析数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的基本属性,文章基本属性,以及用户和文章交互的一些分布,这些都有利于后面的召回策略的选择,以及特征工程。建议:当特征工程和模型调参已经很难继续上分了,可以回来在重新从新的角度去分析这些数据,或许可以找到上分的灵感导包%matplotlib inlineimport pandas as pdimport numpy

2020-11-27 20:20:29 336

原创 新闻推荐系统Task1

赛题理解赛题理解是切入一道赛题的基础,会影响后续特征工程和模型构建等各种工作,也影响着后续发展工作 的方向,正确了解赛题背后的思想以及赛题业务逻辑的清晰,有利于花费更少时间构建更为有效的特征 模型, 在各种比赛中, 赛题理解都是极其重要且必须走好的第一步, 今天我们就从赛题的理解出发, 首先了解一下这次赛题的概况和数据,从中分析赛题以及大致的处理方式, 其次我们了解模型评测的指 标,最后对赛题的理解整理一些经验。赛题简介此次比赛是新闻推荐场景下的用户行为预测挑战赛, 该赛题是以新闻APP中的新闻推荐为

2020-11-25 22:50:31 573

原创 百度图像分割七日打卡

课程心得:1、paddlepaddle类似于tensorflow一样,我们只需要将我们想要的内容的进行编辑即可,框架已经在paddlepaddle里封装,我们直接调用即可,很方便。2、图像分割作为图像领域中一个热点,能够进行系统的从基础开始学起,并且根据论文学习,能够快速高效的明白其中的原理,课堂中老师亲自敲写代码,并且能够有条不紊的教导大家如何根据思路进行代码的书写。3、朱老师说,数据+模型+训练是基本的3步走,要打好这方面的基础。其中数据是指:预处理,比如一些平移、裁剪、旋转、翻转,模型是针对你

2020-10-26 10:11:44 137

原创 Datawhale零基础入门NLP赛事 -新闻文本分类-Task2 数据读取与数据分析

在上一章节,我们给大家简单介绍了赛题的内容和几种解决方案。从本章开始我们将会逐渐带着大家使用思路1到思路4来完成本次赛题。在讲解工具使用的同时,我们还会讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使用csv格式进行存储。因此可以直

2020-07-22 21:24:44 146

原创 Datawhale零基础入门NLP赛事 -新闻文本分类-Task1 赛题理解

本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本

2020-07-21 20:24:55 147

原创 Pandas 教程(下)综合练习

一、端午节的淘宝粽子交易(1) 请删除最后一列为缺失值的行,并求所有在杭州发货的商品单价均值。df_1 = pd.read_csv('../data/端午粽子数据.csv')df_1.head()# 结果可以看出有很多脏数据df_1.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 4403 entries, 0 to 4402Data columns (total 5 columns): # Column

2020-07-01 21:37:10 278

原创 第9章 时序数据

import pandas as pdimport numpy as np一、时序的创建1. 四类时间变量现在理解可能关于③和④有些困惑,后面会作出一些说明2. 时间点的创建(a)to_datetime方法Pandas在时间点建立的输入格式规定上给了很大的自由度,下面的语句都能正确建立同一时间点pd.to_datetime('2020.1.1')pd.to_datetime('2020 1.1')pd.to_datetime('2020 1 1')pd.to_datetime('

2020-06-29 19:53:36 458

原创 第8章 分类数据

import pandas as pdimport numpy as npdf = pd.read_csv('data/table.csv')df.head()一、category的创建及其性质1. 分类变量的创建(a)用Series创建pd.Series(["a", "b", "c", "a"], dtype="category")0 a1 b2 c3 adtype: categoryCategories (3, object): [a, b, c]

2020-06-27 19:36:23 186

原创 第7章 文本数据

import pandas as pdimport numpy as np一、string类型的性质1.string与object的区别string类型和object不同之处有三:① 字符存取方法(string accessor methods,如str.count)会返回相应数据的Nullable类型,而object会随缺失值的存在而改变返回类型② 某些Series方法不能在string上使用,例如: Series.str.decode(),因为存储的是字符串而不是字节③ string类型

2020-06-26 22:30:24 161

原创 第6章 缺失数据

在接下来的两章中,会接触到数据预处理中比较麻烦的类型,即缺失数据和文本数据(尤其是混杂型文本)Pandas在步入1.0后,对数据类型也做出了新的尝试,尤其是Nullable类型和String类型,了解这些可能在未来成为主流的新特性是必要的import pandas as pdimport numpy as npdf = pd.read_csv('data/table_missing.csv')df.head()一、缺失观测及其类型了解缺失信息(a)isna和notna方法对Serie

2020-06-22 22:42:56 324

原创 Task03-EM算法

前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题,E步:求期望(expectation)M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。EM算法引入概率模型有时候既含有观测变量,又含有隐变量或潜在变量,如果概率模型的变量都是观测变量,那么给定数据,可以直接

2020-06-11 11:03:02 152

原创 Task01-线性回归

线性回归的概念1、线性回归的原理2、线性回归损失函数、代价函数、目标函数3、优化方法(梯度下降法、牛顿法、拟牛顿法等)4、线性回归的评估指标5、sklearn参数详解1.线性回归的原理进入一家房产网,可以看到房价、面积、厅室呈现以下数据:我们可以将价格和面积、厅室数量的关系习得为f(x)=θ0+θ1x1+θ2x2f(x)=\theta_0+\theta_1x_1+\theta_2x...

2020-04-24 23:49:30 219

原创 Task00-机器学习综述

2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜. 深度学习开始进行大众的视野中. 深度学习其实是机器学习的一个分支,我们今天来看看机器学习是什么. 机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性...

2020-04-21 22:01:59 268

原创 Leetcode-talk37 去除重复字符

给你一个仅包含小写字母的字符串,请你去除字符串中重复的字母,使得每个字母只出现一次。需保证返回结果的字典序最小(要求不能打乱其他字符的相对位置)。示例 1:输入: "bcabc"输出: "abc"示例 2:输入: "cbacdcbc"输出: "acdb"关键思想:逐个找字典最小的字母思路一:递归class Solution: def removeDuplicateLe...

2020-04-09 22:38:54 131

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除