AI拉呱
只传播科技前沿知识,就做不一样!
展开
-
C++ 落地AI项目教程:以libtorch实现DGA恶意域名的检测
本教程主要介绍如何使用libtorch完成AI的推理计算。介绍使用c++开发DGA算法,Python实现训练模型,并以libtorch实现C++推理。原创 2024-09-22 19:41:10 · 18 阅读 · 0 评论 -
异常检测常见方法综述
异常检测(Anomaly Detection)是指识别数据集中异常模式或行为的过程。异常点(Anomalies),也称为离群点(Outliers),是指那些显著不同于正常数据的少数数据点。点异常:单个数据点与其他数据显著不同。上下文异常:数据点在特定上下文中表现异常。集体异常:一组数据点共同表现异常。原创 2024-06-05 10:10:43 · 88 阅读 · 0 评论 -
自然语言处理-文本清理技术
文本清理,也称为文本预处理或文本数据清理,正在准备原始文本数据并将其转换为更干净、更结构化的格式,以用于分析、建模或其他自然语言处理 (NLP) 任务。它涉及各种技术和程序,从文本文档中去除噪声、不一致和不相关信息,使数据更适合文本分析、情感分析、文本分类和机器学习等下游任务。原创 2024-05-09 23:10:26 · 273 阅读 · 0 评论 -
如何解决“RuntimeError: CUDA Out of memory”问题
当遇到这个问题时,你可以尝试一下这些建议,按代码更改的顺序递增:减少“batch_size”降低精度按照错误说的做清除缓存修改模型/训练在这些选项中,如果你使用的是预训练模型,则最容易和最有可能解决问题的选项是第一个。原创 2023-06-13 10:21:54 · 793 阅读 · 0 评论 -
降维和特征选择的对比
而ICA并没有设定一个所谓主要成分和次要成分的概念,ICA认为所有的成分同等重要,而我们的目标并非将重要特征提取出来,而是找到一个线性变换,使得变换后的结果具有最强的独立性。特征选择从数据集中选择最重要特征的子集,特征选择不会改变原始特征的含义和数值,只是对原始特征进行筛选。降低过拟合的危险:当一个模型包含太多特征时,它更有可能过拟合,这意味着它在训练数据上表现良好,但在新的未知数据上表现不佳。改进的模型可解释性:通过降低模型中的特征量,可以更容易地掌握和解释变量和模型预测之间的关系。原创 2023-06-13 10:20:28 · 1512 阅读 · 0 评论 -
特征选择:11 种特征选择策略
在拟合模型之前应用了一些技术,例如删除具有缺失值的列、不相关的列、具有多重共线性的列以及使用 PCA 进行降维,而在基本模型实现之后应用其他技术,例如特征系数、p 值、 VIF 等。在我们的数据中,没有一列有这样的问题所以,我在此步骤中不删除任何列。如果正在运行回归任务,则特征适应度的一个关键指标是回归系数(所谓的 beta 系数),它显示了模型中特征的相对贡献。如果某些特征不显著,可以将它们一个一个移除,然后每次重新运行模型,直到找到一组具有显着 p 值的特征,并通过更高的调整 R2 提高性能。原创 2023-06-13 10:15:35 · 619 阅读 · 0 评论 -
ChatGPT算法调研以及应用举例说明
为文档写作者围绕主题生成一些大纲。原创 2023-02-08 19:58:56 · 7755 阅读 · 1 评论 -
深度学习以及机器学习面试常见问题以及答案
2)BN的实现:即BN论文中伪代码的步骤(1)计算mini-Batch内m个实例获得的m个激活x求得的均值E(x)并除以求得的方差Var(x)。(2)对某个神经元对应的原始的激活x=WU+B进行减均值除方差操作,此处x为本该进入激活函数的x,式中U为上一层神经元输出,W权重,B偏置。1)BN的作用:对于每个隐层神经元,把逐渐向非线性函数映射后向取值区间极限饱和区靠拢的输入分布强制拉回到均值为0方差为1的比较标准的正态分布,使得非线性变换函数的输入值落入对输入比较敏感的区域,以此避免梯度消失问题。原创 2022-10-14 22:37:56 · 756 阅读 · 0 评论 -
火灾检测:运用深度学习方法实现火灾检测(Python训练、C++部署)
火灾是日常生活中主要灾害之一,严重威胁着人们的生命与财产安全,因此及时准确地发现火灾并预警具有十分重要的研究意义.目前的火灾检测方法一般通过采用感烟、感温和感光探测器实现,但这种方法存在着探测距离有限、响应时间过长、精确度低的缺点.近年来,随着视频监控技术和计算机视觉技术的不断发展,图像型火灾探测器也取得了巨大的进步.与传统的基于传感器的火灾探测系统相比,图像型火灾检测算法具有响应速度快、覆盖范围广、可视化等优点....原创 2022-07-21 15:59:22 · 2432 阅读 · 1 评论 -
2022 AI潜在技术应用趋势(年中总结)
2022年AI技术趋势总结原创 2022-07-07 09:33:48 · 297 阅读 · 0 评论 -
第26节:LightGNM理论与实战
文章目录1. LightGBM是什么东东1.1 LightGBM在哪些地方进行了优化 (区别XGBoost)?1.2 Histogram算法1.3 带深度限制的Leaf-wise的叶子生长策略1.4 直方图差加速1.5 直接支持类别特征2. LightGBM优点3. 代码实现1. LightGBM是什么东东不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000次,fork了200次。知乎上原创 2022-03-09 15:36:03 · 197 阅读 · 0 评论 -
深度学习优化理论篇
1. 训练误差和泛化误差机器学习模型在训练数据集和测试数据集上的表现。如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确。这是为什么呢?因为存在着训练误差和泛化误差:**训练误差:**模型在训练数据集上表现出的误差。**泛化误差:**模型在任意⼀个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。训练误差的期望小于或等于泛化误差。也就是说,⼀般情况下,由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或原创 2022-03-09 15:03:56 · 266 阅读 · 0 评论 -
第23节智能客户系统原理以及分类
1. 智能客服系统智能客服产生的背景:为什么要有智能客服这样的一个产品,或者说研究方向呢?主要有以下这几个原因:我们日常生活中会遇到大量的客服问题,比如说你打电话给联通、移动等,或者说在淘宝上买东西,这些问题大部分都是一些重复的问题,而且频率也特别高,非常的耗人工;对于一个客服密集型的企业来说,大量的人工客服,造成了企业的客服成本非常的高;人工客服是没有办法做到 24 小时全天候的服务;在客户和客服的对话的过程中产生了大量的有价值的数据,这些数据也没有被很好的利用起来。基于以上的这些原因,我原创 2022-03-09 11:17:35 · 402 阅读 · 0 评论 -
第21节迁移学习原理及实例
1. 什么是迁移学习迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。找到目标问题的相似性,迁移学习任务就是从相似性出发,将原创 2022-03-09 11:12:40 · 1275 阅读 · 0 评论 -
第20节GRU原理以及实例
1. 什么是GRU在循环神经⽹络中的梯度计算⽅法中,我们发现,当时间步数较⼤或者时间步较小时,**循环神经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸,但⽆法解决梯度衰减的问题。**通常由于这个原因,循环神经⽹络在实际中较难捕捉时间序列中时间步距离较⼤的依赖关系。**门控循环神经⽹络(gated recurrent neural network)的提出,正是为了更好地捕捉时间序列中时间步距离较⼤的依赖关系。**它通过可以学习的⻔来控制信息的流动。其中,门控循环单元(gatedrecurr原创 2022-03-08 22:56:14 · 1090 阅读 · 0 评论 -
第19节贝叶斯原理及实例
1. 对概率图模型的理解概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决原创 2022-03-08 22:52:42 · 432 阅读 · 0 评论 -
第18节:XGBoost原理及实例
文章目录1. 什么是XGBoost1.1 XGBoost树的定义1.2 正则项:树的复杂度1.3 树该怎么长1.4 如何停止树的循环生成2. XGBoost与GBDT有什么不同3. 为什么XGBoost要用泰勒展开,优势在哪里?4. 代码实现1. 什么是XGBoostXGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。说到XGBoost,不得不提GBDT(Gradient原创 2022-03-08 17:26:07 · 328 阅读 · 0 评论 -
第18节:GBDT基本原理和代码实现
文章目录1. 解释一下GBDT算法的过程1.1 Boosting思想1.2 GBDT原来是这么回事2. 梯度提升和梯度下降的区别和联系是什么?3. **GBDT**的优点和局限性有哪些?3.1 优点3.2 局限性4. RF(随机森林)与GBDT之间的区别与联系5. 代码实现1. 解释一下GBDT算法的过程GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。1.1 Boosting思想Boosting方法训练基分类器时采用串原创 2022-03-07 14:32:17 · 190 阅读 · 0 评论 -
第17节随机森林基本原理和代码实现
文章目录1.什么是随机森林1.1 Bagging思想1.2 随机森林2. 随机森林分类效果的影响因素3. 随机森林有什么优缺点4. 随机森林如何处理缺失值?5. 什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?6. 随机森林的过拟合问题7. 代码实现1.什么是随机森林1.1 Bagging思想Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而原创 2022-03-07 09:29:06 · 209 阅读 · 0 评论 -
第16节:prophet原理及python实现
prophet基本原理Prophet是一个基于加法模型的时间序列数据预测程序,其中非线性趋势用于预测年度、每周和每日的季节性以及假日效应。它非常适用于具有强烈季节性影响或历史数据有周期的时间序列。Prophet对数据缺失和趋势变化非常敏感,通常能够很好地处理异常值。pip install fbprophetprophet模型的结构如下:y(t)=g(t)+s(t)+h(t)+ϵ其中,g(t)是趋势(trend)函数,用来分析时间序列中非周期性的变化。 s(t)代表周期性的变化,例如一周或一年的周原创 2022-03-03 16:00:42 · 2853 阅读 · 0 评论 -
第15节:Transformer基本原理和numpy实现版本
文章目录Transformer的基本知识Transformer原理Transformer的输入自注意力机制实例输入层层内标准化缩放点积Multi-head AttentionMaskFeed Forward层EncoderDecoderTransformer的基本知识ransformer由论文《Attention is All You Need》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团原创 2022-03-02 22:10:08 · 1213 阅读 · 1 评论 -
中国股市量化:《基础算法和数据获取处理》
China stock predictorsetup envanaconda envsconda create --name stock python=3.5source activate stockpip install pandas -i https://pypi.douban.com/simplepip install tushare -i https://pypi.douban...原创 2019-05-16 10:14:38 · 335 阅读 · 0 评论 -
歌声合成:xml预处理依据小节处理
文章目录1 Splitting Multiple Parts Of MusicXML FilelistPart.pykeepPart.pysource code1 Splitting Multiple Parts Of MusicXML FileThe scripts listPart.pyand keepPart.pywill allow you tosplit a MusicXML fi...原创 2019-08-15 18:38:30 · 297 阅读 · 0 评论 -
神经网络构建
文章目录10.1 网络搭建有什么原则?10.1.1新手原则。10.1.2深度优先原则。10.1.4卷积核不是越大越好。10.2 有哪些经典的网络模型值得我们去学习的?10.3 网络训练有哪些技巧吗?10.3.1.合适的数据集。10.3.2.合适的预处理方法。10.3.3.网络的初始化。10.3.4.小规模数据试练。10.3.5.设置合理Learning Rate。10.1 网络搭建有什么原则?...转载 2019-07-09 10:31:01 · 252 阅读 · 0 评论 -
HIFI-Gan:generative adversarial Networks for Efficient and high Fidelity speech synthesis
文章目录摘要前言hifi-gan摘要提出HIFI-gan方法来提高采样和高保真度的语音合成。语音信号由很多不同周期的正弦信号组成,对于音频周期模式进行建模对于提高音频质量至关重要。其次生成样本的速度是其他同类算法的13.4倍,并且质量还很高。前言主流的语音合成大部分分为两个阶段:1)预测低分辨率的中间表示,例如梅尔声谱图或语言特征,从中间表示合成原始波形音频。HIFI-gan主要是解决第二阶段的问题,从梅尔声谱图到高保真度的波形文件。wavenet是一种自回归卷积神经网络,合成高质量的音频的效率原创 2021-01-18 14:52:29 · 2021 阅读 · 0 评论 -
FFmpeg最全教程
文章目录ffmpeginstall ffmpegdebian install简介基础概念容器(Container)流(Stream)帧(Frame)编解码器(Codec)复用/解复用(mux/demux)帧率码率FFplay使用指南FFplay是什么FFplay 使用示例通用选项主要选项高级选项快捷键参考资料FFmpeg常用命令常用命令参考资料格式转换参考资料FFmpeg是什么FFmpeg使用方法...原创 2019-12-29 22:23:42 · 927 阅读 · 0 评论 -
股票当日最高价预测
股票每日最高价预测# encoding: utf-8from __future__ import print_functionimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport tensorflow as tf# 定义LSTM的超参数# 根据股票历史数据中的最低价、最高价、开盘价...原创 2019-10-24 19:22:27 · 837 阅读 · 7 评论 -
Awesome decision tree research papers
Awesome decision tree research papers[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x6xWKmMK-1574130442698)(https://cdn.rawgit.com/sindresorhus/awesome/d7305f38d29fed78fa85652e3a63e154dd8e8829/media/badge.sv...原创 2019-11-19 10:34:06 · 375 阅读 · 0 评论 -
歌声训练数据集:已经标注好,300首
文章目录歌声合成数据集数据集含义数据集的价格博主的数据集包含什么?数据集有哪些语种数据集实例:歌声合成数据集数据集含义首先说明一下,数据集是机器学习,特别是深度学习中最重要的部分,数据是工业的原料,只有数据集的质量高了,才可能在算法的测试中产生很好的结果,因此,数据集是关键的因素。但是恰恰,这一块的数据比较少。数据集的价格首先博主花费了大量的时间与朋友录制,还编写了很多处理的代码,...原创 2019-11-12 16:50:12 · 1361 阅读 · 1 评论 -
2019年最新算法合成歌声测试结果,希望大家评论交流
文章目录歌声合成算法:DNN直接上测试的结果歌声合成算法:DNN训练样本300首歌曲,加300首乐谱测试样本 50首算法:DNN + world直接上测试的结果祝你生日快乐祝你生日快乐乐谱小名就是快乐小名就是快乐乐谱...原创 2019-08-22 00:31:58 · 940 阅读 · 2 评论 -
人工智能基础:数学基础-线性代数精简教程
目录1、线性系统Linear System2、Vectors、Matrices2.1 向量Vectors2.2 矩阵Matrix2.3 矩阵与向量相乘3、线性方程组有解么?3.1 线性方程组3.2 线性组合Linear Combination3.3 张成的空间Span4、线性方程组有多少个解4.1 线性相关和线性无关4.2 秩Rank5、求解线性方程组5.1 初等行变换...转载 2019-03-18 20:25:50 · 2431 阅读 · 0 评论 -
数据挖掘高级理论与实践路线
文章目录基本步骤基本步骤原创 2020-01-06 00:20:19 · 147 阅读 · 0 评论 -
AIops 智能聊天机器人(知识图谱):解决运维中是什么和为什么的问题?
目录0.深圳OPS1. 智能客服系统1.1 智能客服的目标1.2 细分领域1.3 智能客服常见功能2. 智能客服的工作原理2.1 自然语言理解2.2 意图识别2.3 知识库2.4 知识图谱2.5 对话技术2.6 聊天机器人3. 整体架构4. 评价体系0. AIops核心解决:是什么?为什么的问题?方法:基于知识图谱0.1 关键技术...原创 2019-09-26 00:35:55 · 769 阅读 · 0 评论 -
madmom的music分析工具
文章目录madmom 教程Madmom 简介srcmadmom 教程Madmom 简介madmom 是一个音频信号处理库,主要用于音乐信号提取(MIR)src# -*- coding:utf-8 -*-# /usr/bin/python@Evn : pip install madmom@Date : 2019-09-01 12:57import num...原创 2019-09-01 15:16:34 · 1795 阅读 · 0 评论 -
语音识别调研报告
语音识别调研报告一、语音识别:(Automatic Speech Recognition,ASR)- 应用:语音识别是为了让计算机理解自然语言。- 中文语音识别的关键点:1.句到词的分解,词到音节的分解;2.语音的模糊性,如多音字问题;3.词在不同语境中不同;4.环境噪声的印象。- 处理的核心步骤: - - 1. 音频处理:消除噪声,让信号更能反映语音的本质特征。 - - 2. 声...原创 2019-04-17 22:47:36 · 832 阅读 · 0 评论 -
基于词向量的文本查重
基于词向量的文本查重import gensimimport numpy as npimport jiebafrom gensim.models.doc2vec import Doc2Vec, LabeledSentence# stop_text = open('stop_list.txt', 'r')# stop_word = []# for line in stop_text:#...原创 2019-04-30 16:08:44 · 414 阅读 · 0 评论 -
docker完整教程
文章目录docker baseNLdocker仓库docker 网络docker imagesdocker containerlinux base imagesdocker ssh serverKubernetes 容器集群平台1.docker-教程docker三个重要的问题:dockerfile 容器 镜像docker命令集合docker基础知识docker 镜像搜索学习linux的瑞士军刀镜像...原创 2019-07-17 13:35:40 · 158 阅读 · 0 评论 -
python turtle绘图教程与示例
文章目录示例1 自动画树code示例2 绘制五角星code示例1 自动画树code# -*- coding:utf-8 -*-# /usr/bin/python'''@Author : Errol @Describe: @Evn : @Date : 2019-09-11 09:31'''from turtle import *# 设置色彩...原创 2019-09-11 09:43:34 · 783 阅读 · 0 评论 -
歌声合成:world 声码器的demo
world 声码器的demo安装要求 1. python3 2. pip3 install numpy pyworld librosa -i -i https://pypi.tuna.tsinghua.edu.cn/simple 3. os :ubuntu or macos源代码#!/usr/bin/env python3# -*- coding: utf-8 -*-# ...翻译 2019-03-17 17:57:22 · 1828 阅读 · 9 评论 -
深度学习之经验和训练集(训练中英文样本)
深度学习之经验和训练集(训练中英文样本)学习深度学习和在深度学习两年多,积累了很多的学习资料,以及一些经验吧。学习目标是什么?这个是一切深度学习需要明确的目标*目前在这个方面,前人研究到什么程度?遇到那些困哪?本人研究的是中文自然语言的读(机器以某人的音色发声)与创作(诗歌,音乐和文章创作)*语言学基本知识:对词性有些了解知道如何处理语言的前处理:清除所有的非文字符号、汉语转拼音...原创 2018-08-15 22:10:03 · 1886 阅读 · 1 评论