![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
zoe_cf
这个作者很懒,什么都没留下…
展开
-
国内算法竞赛网址收集
树愿:http://www.datadreams.org DC竞赛:http://www.dcjingsai.com/ 阿里天池:https://tianchi.aliyun.com/ 京东JDATA:https://jdata.jd.com/ DataFountain:https://www.datafountain.cn/ Kesci:https://www.kesci.com/ho...原创 2018-09-04 14:07:25 · 13849 阅读 · 3 评论 -
BERT语言模型
1 Transformer原理文章:《Attention Is All You Need》模型架构图如下:transformer的结构由encoder编码和decoder解码组成。1.1 EncoderEncoder组件部分由一堆Layer(可以理解为编码器)构成(论文中是将6个Layer叠在一起)。Decoder解码组件部分也是由相同数量(与编码器对应)的解码器(deco...原创 2019-07-18 17:31:54 · 3512 阅读 · 1 评论 -
神经网络基础
人工神经网络 人工神经网络(Artificial Neural Network,ANN)是指一系列受生物学和神 经学启发的数学模型。这些模型主要是通过对人脑的神经元网络进行抽象,构 建人工神经元,并按照一定拓扑结构来建立人工神经元之间的连接,来模拟生 物神经网络。在人工智能领域,人工神经网络也常常简称为神经网络(Neural Network,NN)或神经模型(Neural Mod...原创 2019-07-06 18:03:31 · 503 阅读 · 0 评论 -
Attention原理
1 Attention 基本原理 神经网络中可以存储的信息量称为网络容量(Network Capacity)。一般来 讲,利用一组神经元来存储信息时,其存储容量和神经元的数量以及网络的复杂 度成正比。如果要存储越多的信息,神经元数量就要越多或者网络要越复杂,进 而导致神经网络的参数成倍地增加。 我们人脑的生物神经网络同样存在网络容量问题,人脑中的工作记忆大概 只有几...原创 2019-07-15 18:16:10 · 950 阅读 · 0 评论 -
文本表示
文本向量化是文本表示的一种重要方式,其中词袋 Bag of Words(BOW) 和词向量Word Embedding是最常见的两种类型。词袋模型: 是n-gram语法模型的特例1元模型。该模型忽略掉文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BOW使用一组无序的单词(words)来表达一段文字或一个文档。常见表示方法:one-hot...原创 2019-07-05 23:16:51 · 354 阅读 · 0 评论 -
卷积神经网络
1 卷积运算 在泛函分析中,卷积是通过两个函数 f 和 g 生成第三个函数的数学运算,表征函数 f 和经过翻转,平移的 g 的乘积函数围成的曲边梯形的面积。 连续函数卷积: 设 f(x),g(x) 是 R 上两个可积函数,作积分: ...原创 2019-07-09 18:20:48 · 404 阅读 · 0 评论 -
文本特征选择
一、文本特征的特点1、特征项能够区分文章的不同2、特征项能够表达该文章的信息3、特征的个数选择不能太多二、特征选择的方法1、TF-IDFFrequency-Inverse Document Frequency:词频(TF)-逆文档频率(IDF),其中词频(TF)= 某个词在文章中的出现次数 / 文章的总词数逆文档频率(IDF)= log(语料库的文档总数 /...原创 2019-06-27 20:52:32 · 1950 阅读 · 0 评论 -
文本分词
1. 基本文本处理技能 英文分词,常以空格分词,中文分词较为复杂,常见方法有:正向最大、逆向最大、双向最大匹配法,这些方法是基于词典匹配而成。正向最大:从前往后取词,每次减一个字,直至词典命中或剩下1个单字。逆向最大:从后往前取词,每次减一个字,直至词典命中或剩下1个单子。双向最大匹配:正向最大与逆向最大两种算法都进行一遍分词,根据词的颗粒度越大越好且单字和非字...原创 2019-06-23 23:21:43 · 1428 阅读 · 0 评论 -
文本分类
1、朴素贝叶斯原理:理论上,概率模型分类器是一个条件概率模型:独立变量C有若干类别,条件依赖于若干特征变量,但问题在于如果特征数量n的维度较大或者每个特征能取大量值时,基于概率模型列出概率表变得不现实。所以我们修改这个模型使之变得可行。 根据贝叶斯公式有以下式子:或者,这样表达比较简洁明了:其中,为先验概率,为后验概率;可以这么理解,再不知道需要预测的样本任...原创 2019-07-01 21:34:52 · 573 阅读 · 0 评论 -
常见分类性能度量指标
常见分类性能度量指标准确率精确率召回率F1 值ROC曲线AUC曲线PR曲线常见分类性能度量指标再将这几个指标之前,先讲几个基础概念真正(True Positive , TP):被模型预测为正的正样本。假正(False Positive , FP):被模型预测为正的负样本。假正(False Negative , FN):被模型预测为负的正样本。真负(True ...原创 2019-06-21 16:29:46 · 4328 阅读 · 2 评论 -
IMDB 数据集探索
代码参考:https://www.tensorflow.org/tutorials/keras/basic_text_classificationhttps://my.oschina.net/u/3800567/blog/2887156代码存放:https://colab.research.google.com/drive/1vpo6LSRfvnUj3G4JGEKsqGCl6HGevI...原创 2019-06-21 15:42:34 · 3686 阅读 · 1 评论 -
随机森林算法梳理
Content1、概念1.1 个体学习1.2 集成学习1.2.1 集成学习关键1.2.2 个体学习器1.2.3 结合策略1.3 集成方法1.3.1 Bagging1.3.2 Boosting1.3.3 Stacking1.3.4 其他集成方法2、随机森林2.1 随机森林思想2.2 优缺点2.3、应用以及推广3、sklearn参数1...原创 2019-04-03 16:08:05 · 819 阅读 · 0 评论 -
Xgboost算法梳理
目录1 算法思想2 算法原理3 损失函数4 分裂结点算法5 正则化6 对缺失值处理7 优缺点8 应用场景9 sklearn参数 官方文档参数调整注意事项python 包介绍10 参考文章1 算法思想该算法思想就是不断地添加树,不断地进行特征分裂来生长一棵树,每次添加一个树,其实是学习一个新函数,去拟合上次预测的残差。当我们训练完成得...原创 2019-04-10 21:48:11 · 219 阅读 · 0 评论 -
GBDT算法梳理
Table of Contents1 GBDT概述2 前向分布算法2.1 加法模型2.2 前向分布算法2.2.1 思想2.2.2 策略2.2.3 加法模型求解3 损失函数4 负梯度拟合5 回归6 GBDT分类6.1 二分类6.2 多分类7 正则化8 优缺点9 sklearn参数10 应用场景1 GBDT概述GBDT(Gr...原创 2019-04-07 21:44:35 · 194 阅读 · 0 评论 -
循环和递归神经网络
1 循环神经网络 循环神经网络(Recurrent Neural Network,RNN)是一类具有短期记忆能力的神经网络。在循环神经网络中,神经元不但可以接受其它神经元的信息,也可以接受自身的信息,形成具有环路的网络结构。和前馈神经网络相比,循环神经网络更加符合生物神经网络的结构。循环神经网络已经被广泛应用在语音识别、语言模型以及自然语言生成等任务上。循环神经网络的参数学习可以通过...原创 2019-07-12 16:06:42 · 17358 阅读 · 1 评论