机器学习
文章平均质量分 52
热爱数学的小菜鸡
这个作者很懒,什么都没留下…
展开
-
高维数据的异常检测
一、概述主要内容包括Feature Bagging孤立森林在实际场景中,很多数据集都是多维度的,随着维度的增加,数据空间的大小会以指数级别增长,使数据变稀疏。维度诅咒不止给异常检测带来了挑战,对距离的计算、聚类都带来了难度。例如,在之前介绍的基于邻近度的方法是在所有维度中使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎是相等的,这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成算法将多个算法或原创 2021-05-23 23:16:22 · 382 阅读 · 0 评论 -
CNN网络搭建
CNN网络的基本架构首先来介绍一下keras这个深度学习框架 Keras是一个用Python编写的开源神经网络库,是基于TensorFlow、CNTK或者Theano作为后端的高层神经网络API。 准确的说,Keras并不能称为深度学习框架,因为它更像一个深度学习接口,建立在第三方深度学习框架之上,但是Keras在使用时非常方便,非常适合初学者。卷积神经网络的结构输入层:用于数据的输入卷积层:使用卷积核进行特征提取和特征映射激励层:由于卷积是一种线性运算,需要增加非线性映射池化层:进行原创 2021-04-19 22:46:15 · 1345 阅读 · 0 评论 -
音频特征提取
食物声音识别的特征提取当拿到一些音频数据后,怎么对这些数据进行处理呢?接下来我们了解一下怎么用一些特征来描述音频数据。常见的音频特征提取1、过零率是一个信号符号变化的比率。即,在每帧中,语音信号从正变为负或从负变为正的次数,这个特征已在语音识别和音乐检索领域得到广泛应用,通常对类似金属、摇滚等高冲击性的声音具有更高的价值。一般情况下,过零率越大,频率近似越高。Python实现x , sr = librosa.load('./train_sample/aloe/24EJ22XBZ5.wav')#原创 2021-04-18 01:11:33 · 4268 阅读 · 0 评论 -
零基础入门语音识别之赛题介绍
声音的产生声音以波的形式产生,我们从波的视角来理解声音,仅凭频率,幅度,相位,便构成了波及其叠加的所有,声音的不同音高、音量、音色也由这些基本“粒子”组合而来。世界上所有的声波都可以“降解”到基本波以上,这也是傅里叶变换的基本思想。赛题数据集介绍声音分类在很多场景中都有大模型的应用,例如对于音乐的分类可以应用与音乐的检索和推荐中,本赛题的背景是食物的声音的分类。本次比赛的数据集来自Kaggle的“Eating Sound Collection”(可商用), 数据集中包含20种不同食物的咀嚼声音,赛原创 2021-04-16 00:12:53 · 1198 阅读 · 3 评论 -
零基础入门语音识别 学习打卡
入门语音识别之librosa库librosa是Python中用于音乐和音频分析的软件包,提供了创建音乐信息检索系统所必须的构造块。核心IO1、音频加载load(path[,sr,mono,offset,duration,…])加载音频文件stream(路径,block_length,frame_length等)...原创 2021-04-13 22:44:08 · 157 阅读 · 0 评论 -
简单介绍下新闻推荐系统中用到的排序模型
通过召回的操作, 我们已经进行了问题规模的缩减, 对于每个用户, 选择出了N篇文章作为了候选集,并基于召回的候选集构建了与用户历史相关的特征,以及用户本身的属性特征,文章本省的属性特征,以及用户与文章之间的特征,下面就是使用机器学习模型来对构造好的特征进行学习,然后对测试集进行预测,得到测试集中的每个候选集用户点击的概率,返回点击概率最大的topk个文章,作为最终的结果。排序阶段选择了三个比较有代表性的排序模型,它们分别是:LGB的排序模型LGB的分类模型深度学习的分类模型DIN得到了最终的排原创 2020-12-06 23:20:44 · 413 阅读 · 0 评论 -
以新闻推荐为背景介绍下特征工程
特征工程是机器学习甚至深度学习中最重要的一部分,什么是特征工程呢?一个非常简单的例子,现在出一非常简答的二分类问题题,请你使用逻辑回归,设计一个身材分类器。输入数据X:身高和体重 ,标签为Y:身材等级(胖,不胖)。显然,不能单纯的根据体重来判断一个人胖不胖,姚明很重,他胖吗?显然不是。针对这个问题,一个非常经典的特征工程是,BMI指数,BMI=体重/(身高^2)。这样,通过BMI指数,就能非常显然地帮助我们,刻画一个人身材如何。甚至,你可以抛弃原始的体重和身高数据。所以,简单来说,就是通过X构造一个新的X原创 2020-12-03 20:40:14 · 93 阅读 · 0 评论 -
新闻推荐系统中的多路召回策略
多路召回是什么采用不同的策略、特征、或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显看出,"多路召回“策略是在”计算速度“和”召回率“之间进行权衡的结果。召回常用的策略1、YoutubeDNN召回def youtubednn_u2i_dict(data, topk=20): sparse_features = ["click_article_id", "user_id"] SEQ_LEN = 30 # 用户点击序列的长度,短的填充,长的截断原创 2020-11-30 20:56:52 · 475 阅读 · 2 评论 -
新闻推荐场景下的用户行为预测挑战赛之数据分析
文章目录前言一、导包二、读取数据三、数据预处理四、数据浏览1、用户点击日志文件_训练集2、总结前言数据分析的价值在于熟悉整个数据集的基本情况,包括每个文件里有哪些数据,具体的文件中的字段表示什么含义,以及数据集中特征之间的相关性,在推荐场景下主要就是分析用户本身的属性,文章基本属性,以及用户和文章的一些分布,有利于后续的召回策略的选择,以及特征工程。一、导包%matplotlib inlineimport pandas as pdimport numpy as npimport matp.原创 2020-11-27 19:47:09 · 696 阅读 · 0 评论 -
新闻推荐场景下的用户行为预测挑战赛的赛题理解和baseline
文章目录一、赛题简介二、数据概况三、评价方式理解四、赛题理解1.明确目标2.思考方向3解决思路五、Baseline1、导包总结一、赛题简介这次赛题是以新闻APP的新闻推荐为背景,目的是要我们根据用户历史浏览点击新闻文章的数据信息预测用户未来的点击行为,即用户最后一次点击的新闻文章。二、数据概况该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的文章,同时每篇新闻有对应的embedding向量表示。三、评价方式理解理解评价方式,我们需要结合最后提交的文原创 2020-11-25 12:57:52 · 651 阅读 · 3 评论