自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 Django 搭建个人网站 ---Models 的编写

Models的编写1.Blogmodels.pyfrom django.db import modelsfrom django.contrib.auth.models import User# Create your models here.class Category(): """分类""" STATUS_ITEMS = ( (1,"正常"), (0, "删除"), ) name = models.CharField(max_

2021-06-28 00:38:52 250

原创 Django开发-Task2快速搭建文章发布的网站

Django开发-Task2快速搭建文章发布的网站创建项目django-admin startproject demo创建APPpython manage.py startapp blog保证在有manage.py文件夹下运行1、将新建的APP和项目进行关联在settings配置文件中修改INSTALLED_APPS = [ 'django.contrib.admin', 'django.contrib.auth', 'django.contrib.content

2021-06-20 17:17:18 183

原创 Django开发task01打卡

Django开发task01打卡1、HTML基础知识Html5基本结构<!DOCTYPE html><html> <head> <title>页面标题</title> <meta http-equiv="Content-Type" content = "text/html";charset = gb2312/> </head> <body>

2021-06-16 21:44:52 247

原创 高维数据的异常检测

一、概述主要内容包括Feature Bagging孤立森林在实际场景中,很多数据集都是多维度的,随着维度的增加,数据空间的大小会以指数级别增长,使数据变稀疏。维度诅咒不止给异常检测带来了挑战,对距离的计算、聚类都带来了难度。例如,在之前介绍的基于邻近度的方法是在所有维度中使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎是相等的,这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成算法将多个算法或

2021-05-23 23:16:22 450

转载 基于近邻度的方法进行异常检测

一、概述在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”的区别,专注于哪些具有有价值特性的异常值。在基于相似度的方法中,主要思想是异常点的表示与正常点不同二、基于距离的度量基于距离的方法是一种常见的适用于各种数据域的异常检测方法,它基于最近邻距离来定义异常值。 此类方法不仅适用于多维数值数据,在其他许多领域,例如分类数据,文本数据,时间序列数据和序列数据等方面也有广泛的应用。基于距离的异常检测有这样一个前提假设,即异常点

2021-05-21 00:42:12 3858

原创 基于线性模型的异常检测

一、概述真实数据集的不同维度之间具有高度的相关性。这是因为不同的属性通常由相同的底层流程以密切相关的方式生成。在经典统计文献中,这被称为回归建模。一些形式的相关分析试图从其他方面预测个体属性值,而另一种形式则以潜在变量的形式总结整个数据。后者的一个例子是主成分分析方法。这两种建模形式在离群值分析的不同场景中都非常有用。线性模型的主要假设是数据被嵌入到一个低维子空间中,在线性方法中,目标是找到低维子空间,其中离群点的行为与其他点非常不同。在本文中,我们将主要研究两类线性模型,第一类模型使用因变量和自变量

2021-05-17 23:06:40 565

原创 基于统计学方法的异常检测

一、概述在异常值检测中,统计建模的一种流行形式是检测极端单变量值。在这种情况下,需要确定单变量分布尾部的数据值,以及相应的统计显著水平。这似乎是一种相当有限制的情况,因为大多数多维异常值并不对应于数据值的极端值。相反,异常值通常由数据值之间的相对位置定义。虽然极端单变量值对应的是一种非常特殊的离群值,但除了单变量情况外,它们还有许多应用。这是因为几乎所有的离群点检测算法都执行某种数值评分,以测量数据点的异常程度。二、极值分析的统计方法极值分析的统计方法量化了分布尾部的概率。尾部的概率值很低,表明它内部

2021-05-14 23:40:04 1399

原创 异常检测简单介绍

异常检测指的是识别与正常数据不同的数据,与预期行为差异大的数据,在很多场景中都要用到异常检测方法。比如说故障检测、医疗日常检测、网络入侵检测、信用卡欺诈检测、工业异常检测、时间序列异常检测、视频异常检测、日志异常检测。异常检测面临的难点1、未知性:异常与许多未知性因素有关(具有未知的突发行为)2、异常的异构性:异常是不规则的,一类异常可能表现出与另一类异常完全不同的特征3、类别不均衡:异常通常是罕见的,而正常实例通常占数据的绝大部分。今天主要介绍一下异常检测的一些方法基于统计学的方法统计学

2021-05-11 23:08:17 529 2

原创 CNN网络搭建

CNN网络的基本架构首先来介绍一下keras这个深度学习框架 Keras是一个用Python编写的开源神经网络库,是基于TensorFlow、CNTK或者Theano作为后端的高层神经网络API。 准确的说,Keras并不能称为深度学习框架,因为它更像一个深度学习接口,建立在第三方深度学习框架之上,但是Keras在使用时非常方便,非常适合初学者。卷积神经网络的结构输入层:用于数据的输入卷积层:使用卷积核进行特征提取和特征映射激励层:由于卷积是一种线性运算,需要增加非线性映射池化层:进行

2021-04-19 22:46:15 1407

原创 音频特征提取

食物声音识别的特征提取当拿到一些音频数据后,怎么对这些数据进行处理呢?接下来我们了解一下怎么用一些特征来描述音频数据。常见的音频特征提取1、过零率是一个信号符号变化的比率。即,在每帧中,语音信号从正变为负或从负变为正的次数,这个特征已在语音识别和音乐检索领域得到广泛应用,通常对类似金属、摇滚等高冲击性的声音具有更高的价值。一般情况下,过零率越大,频率近似越高。Python实现x , sr = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')#

2021-04-18 01:11:33 4380

原创 零基础入门语音识别之赛题介绍

声音的产生声音以波的形式产生,我们从波的视角来理解声音,仅凭频率,幅度,相位,便构成了波及其叠加的所有,声音的不同音高、音量、音色也由这些基本“粒子”组合而来。世界上所有的声波都可以“降解”到基本波以上,这也是傅里叶变换的基本思想。赛题数据集介绍声音分类在很多场景中都有大模型的应用,例如对于音乐的分类可以应用与音乐的检索和推荐中,本赛题的背景是食物的声音的分类。本次比赛的数据集来自Kaggle的“Eating Sound Collection”(可商用), 数据集中包含20种不同食物的咀嚼声音,赛

2021-04-16 00:12:53 1247 3

原创 零基础入门语音识别 学习打卡

入门语音识别之librosa库librosa是Python中用于音乐和音频分析的软件包,提供了创建音乐信息检索系统所必须的构造块。核心IO1、音频加载load(path[,sr,mono,offset,duration,…])加载音频文件stream(路径,block_length,frame_length等)...

2021-04-13 22:44:08 188

原创 简单介绍下新闻推荐系统中用到的排序模型

通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最终的排

2020-12-06 23:20:44 459

原创 以新闻推荐为背景介绍下特征工程

特征工程是机器学习甚至深度学习中最重要的一部分,什么是特征工程呢?一个非常简单的例子,现在出一非常简答的二分类问题题,请你使用逻辑回归,设计一个身材分类器。输入数据X:身高和体重 ,标签为Y:身材等级(胖,不胖)。显然,不能单纯的根据体重来判断一个人胖不胖,姚明很重,他胖吗?显然不是。针对这个问题,一个非常经典的特征工程是,BMI指数,BMI=体重/(身高^2)。这样,通过BMI指数,就能非常显然地帮助我们,刻画一个人身材如何。甚至,你可以抛弃原始的体重和身高数据。所以,简单来说,就是通过X构造一个新的X

2020-12-03 20:40:14 119

原创 新闻推荐系统中的多路召回策略

多路召回是什么采用不同的策略、特征、或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显看出,"多路召回“策略是在”计算速度“和”召回率“之间进行权衡的结果。召回常用的策略1、YoutubeDNN召回def youtubednn_u2i_dict(data, topk=20): sparse_features = ["click_article_id", "user_id"] SEQ_LEN = 30 # 用户点击序列的长度,短的填充,长的截断

2020-11-30 20:56:52 553 2

原创 新闻推荐场景下的用户行为预测挑战赛之数据分析

文章目录前言一、导包二、读取数据三、数据预处理四、数据浏览1、用户点击日志文件_训练集2、总结前言数据分析的价值在于熟悉整个数据集的基本情况,包括每个文件里有哪些数据,具体的文件中的字段表示什么含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的属性,文章基本属性,以及用户和文章的一些分布,有利于后续的召回策略的选择,以及特征工程。一、导包%matplotlib inlineimport pandas as pdimport numpy as npimport matp.

2020-11-27 19:47:09 779

原创 新闻推荐场景下的用户行为预测挑战赛的赛题理解和baseline

文章目录一、赛题简介二、数据概况三、评价方式理解四、赛题理解1.明确目标2.思考方向3解决思路五、Baseline1、导包总结一、赛题简介这次赛题是以新闻APP的新闻推荐为背景,目的是要我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为,即用户最后一次点击的新闻文章。二、数据概况该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的文章,同时每篇新闻有对应的embedding向量表示。三、评价方式理解理解评价方式,我们需要结合最后提交的文

2020-11-25 12:57:52 782 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除