机器学习
文章平均质量分 65
shelleyHLX
这个作者很懒,什么都没留下…
展开
-
简明条件随机场CRF介绍 | 附带纯Keras实现
文章目录1. softmax和crf的异同1.1. 逐帧softmax1.2. 条件随机场2. 数学2.1. 模型概要2.2. 线性链CRF2.3. 归一化因子2.4. 动态规划3. 实现3.1. 实现要点3.2. 代码速览3.3. 实现要点4. 参考文献reference笔者去年曾写过文章《果壳中的条件随机场(CRF In A Nutshell)》[1],以一种比较粗糙的方式介绍了一下条件随机场(CRF)模型。然而那篇文章显然有很多不足的地方,比如介绍不够清晰,也不够完整,还没有实现,在这里我们重提这个转载 2020-07-09 10:21:02 · 249 阅读 · 0 评论 -
条件随机场的理论和例子--(2)
文章目录3.条件随机场4.线性链条件随机场4.1.线性链条件随机场的参数化形式4.2.条件随机场的简化形式4.3.条件随机场的矩阵形式5.条件随机场与HMM的区别6.NER的例子6.1.计算过程3.条件随机场随机场:随机场是一种图模型,包含结点的集合和边的集合,结点表示一个随机变量,而边表示随机变量之间的依赖关系。如果按照某一种分布随机给图中每一个结点赋予一个值,则称为随机场。马尔科夫随机场:马尔科夫性质指某一个时刻t的输出值只和t-1时刻的输出有关系,和更早的输出没有关系。马尔科夫随机场则是一种特殊原创 2020-07-09 09:38:39 · 1522 阅读 · 0 评论 -
条件随机场的相关知识--(1)
文章目录1.概率图1.1.有向图 vs. 无向图1.1.1.有向图1.1.2.无向图1.2.马尔科夫假设&马尔科夫性1.3.序列建模2.概率无向图模型2.1.概率无向图模型的因子分解1.概率图在统计概率图(probability graph models)中,参考宗成庆老师的书:在概率图模型中,数据(样本)由公式G=(V,E)G=(V,E)G=(V,E)建模表示:表示节点,即随机变量(放在此处的,可以是一个token或者一个label),具体地,用 Y=(y1,...,yn)Y=(y_1原创 2020-07-06 11:32:42 · 287 阅读 · 0 评论 -
分类评价标准
文章目录1. 概述2.混淆矩阵4.多个类别4.1.代码5.ROC和AUC5.1.ROC的理论5.2.ROC绘制5.2.1.代码5.3.AUC5.4.ROC的相关总结5.4.1.ROC曲线的优点5.4.2.ROC曲线的缺点6.PR曲线6.1.代码6.2.使用场景7.IoU8.代码参考1. 概述对语料进行分类后,要对分类结果进行评价。假设模型分类后的结果如下表2.3:(1)准确率(precision)和召回率(recall)准确率,是分类结果中的某类别判断正确的文档中有多少是真正的正样本的比例,是针对原创 2020-07-03 20:57:41 · 3457 阅读 · 1 评论 -
二分类感知机--(1)
文章目录1.定义1.1.感知机的几何解释2.感知机的学习策略3.感知机的学习算法3.1.例子4.收敛5.感知机的对偶形式5.1.例子感知机(perceptron)是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1二值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分高超平面,属于判别模型,感知机学习旨在求出将训练数据迸行线性划分的分离超平面,为此,导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分原创 2020-07-03 14:13:19 · 2084 阅读 · 0 评论 -
隐马尔科夫模型的例子实现--(2)
文章目录4.感冒和健康4.1.解释4.2.代码5.中文分词5.1.解释5.1.1.InitStatus5.1.2.TransProbMatrix5.1.3.EmitProbMatrix5.2.训练HMM模型5.3.进行分词6.代码和数据4.感冒和健康4.1.解释隐藏状态和观察状态的概率转移如下:求观测状态为normal,cold,dizzy时的隐藏状态。第一步:P(“cold”|newState):隐藏状态下观察状态的概率,隐藏状态到观测状态的发射概率P_start(state)P_obs原创 2020-07-03 15:53:38 · 616 阅读 · 0 评论 -
隐马尔科夫模型的理论--(1)
文章目录1.定义2.隐马尔科夫模型的三个问题3.例子3.1.描述问题3.1.1.评估问题3.1.2.解码问题3.1.3.学习问题3.2.解决方案3.2.1.计算结果概率3.2.2.计算隐含状态概率1.定义有向图模型又分为,静态贝叶斯网络和动态贝叶斯网络, 动态贝叶斯网络再具体细分就是 隐马尔科夫模型 和 卡尔曼滤波器无向图模型分为马尔科夫网络,马尔科夫网络分成,吉布斯/波尔兹曼机和条件随机场隐马尔可夫模型(Hidden Markov Model,HMM)是关于时序的概率模型,它用来描述一个含有隐含原创 2020-07-03 10:41:17 · 566 阅读 · 0 评论 -
朴素贝叶斯--(2)
文章目录4.文档分类5.垃圾邮件分类6.文本特征向量化6.1.one-hot6.2.tf-idf (term frequency-inverse document frequency)6.3.Tfidf Vectorizer6.4.word2vec7.代码7.1.理论实现7.2.sklearn7.3.贝叶斯的种类7.3.1.高斯朴素贝叶斯7.3.2.多项分布的朴素贝叶斯7.3.3.伯努利朴素贝叶斯7.3.4.堆外朴素贝叶斯模型拟合7.3.5.iris数据7.3.6.文本8.代码和数据9.reference原创 2020-07-02 21:04:58 · 336 阅读 · 0 评论 -
朴素贝叶斯--(1)
文章目录1.条件概率2.引入3.贝叶斯模型3.1.算法过程3.2.例子3.3.贝叶斯估计3.4.拉普拉斯平滑(Laplace smoothing)1.条件概率定义:设A,B是两个事件,且P(A)>0,称P(B|A)=P(AB)/P(A)为在事件A发生的条件下事件B发生的条件概率。性质:(1)非负性:P(B∣A)≥0P(B|A) \geq 0P(B∣A)≥0(2)规范性:对于必然事件S,有P(S∣A)=1P(S|A)=1P(S∣A)=1(3)可列可加性:设B1,B2,...B_1,B_原创 2020-07-02 20:49:46 · 276 阅读 · 0 评论 -
AdaBoost算法的理论--(1)
谁谁谁水水水水原创 2020-07-02 19:58:10 · 317 阅读 · 0 评论 -
EM算法的理论和实现--(2)
文章目录4.最大期望算法4.1.EM算法5.EM算法的收敛性证明????6.硬币例子-EM算法7.代码7.1.代码17.2.sklearn7.3.EM其他例子7.3.1.代码17.3.2.代码24.最大期望算法EM算法是一种迭代算法,1977年由Dempter等人总结提出,用于含有隐变量(hidden variable)的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代两步组成:E步,求期望(expectation);M步,求极大(maximization)。所以这一算法称为期望-极大原创 2020-06-29 15:59:21 · 554 阅读 · 0 评论 -
决策树的实现--(2)
1.4.代码1.4.1.实现代码machine learning in actions有详细解释。from math import logimport operatorimport matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesdef createDataSet_loan(): # 数据集 dataSet = [[0, 0, 0, 0, 'no'],原创 2020-06-24 14:49:49 · 309 阅读 · 0 评论 -
决策树decision tree--(1)
文章目录1.决策树1.1.原理1.2.ID3算法1.2.1.信息增益1.2.2.例子1.2.2.1.ID31.2.2.2.C4.5算法1.2.2.3.CART算法1.2.2.4.如何剪枝?1.3.优缺点1.3.1.ID31.3.2.C4.51.决策树1.1.原理决策树很多任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则。邮件分类系统的例子:在构造决策树时,我们需要解决的第一个问题就是,当前数据集上哪个特征在划分数据分类时起决定性作用。为了找到决定性的特原创 2020-06-24 14:44:32 · 336 阅读 · 0 评论 -
3.Logistic回归模型的实现(3)
文章目录3.Logistic回归模型的实现3.1.损失函数的确定3.1.1.sigmoid函数3.5.代码3.5.1.实现的代码3.5.2.sklearn4.代码和数据5.参考3.Logistic回归模型的实现Logistic回归的预测函数(hypotheses)为:输入:m个训练样本,其中y∈{0,1}y \in \{0,1\}y∈{0,1}输出:回归系数θ\thetaθ。令:p=(y=1∣x;θ)=hθ(x)p=(y=1|x;\theta)=h_{\theta}(x)p=(y=1∣x;θ原创 2020-06-23 17:19:37 · 1106 阅读 · 0 评论 -
logistic回归--最大熵模型(2)
文章目录2.1.最大熵模型的定义2.2.最大熵模型的学习2.2.1.例子2.2.2.极大似然估计最大熵原理是概率模型学习的一个准则,最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。假设随机变量X的概率分布是P(X),则其熵是H(P)=−∑xP(x)logP(x)H(P)=-\sum_xP(x)logP(x)H(P)=−∑xP(x)logP(x)熵的性质:0≤H(P)≤log∣X∣0\le原创 2020-06-23 11:35:30 · 286 阅读 · 0 评论 -
logistic回归--基本理论(1)
文章目录1.逻辑斯蒂回归1.1.逻辑斯蒂分布1.2.二项式逻辑斯蒂回归模型--二类别1.2.1.模型参数估计1.3.多项式逻辑斯蒂回归模型--多类别1.逻辑斯蒂回归1.1.逻辑斯蒂分布逻辑斯蒂分布(logistic distribution):设X是连续随机变量,X服从逻辑斯蒂分布是指X具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X \le x)=\frac{1}{1+e^{-(x-\mu)/ \gamma}}F(x)=P(X≤x)=1+e−(x−μ)/原创 2020-06-23 11:00:23 · 1268 阅读 · 0 评论 -
k-近邻算法(k-nearest neighbor)
文章目录1.原理2.距离计算3.算法过程4.K值得选择5.优缺点6.k近邻的实现:kd树7.代码7.1.原理的实现7.2.sklearn的实现8.代码和数据9.参考1.原理给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的k个实例,这k个实例的多数实例属于某个类别,就把这个输入实例分为这个类。算法:输入:训练数据T=(x(1),y(1)),(x(2),y(2)),...,(x(N),y(N))(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),...,(x^{原创 2020-06-16 16:36:10 · 1021 阅读 · 0 评论 -
机器学习概述(2)--生成模型和判别模型的区别
文章目录1.引入1.1.判别式模型1.2.生成式模型2.生成模型与判别模型1.引入在监督学习下,模型可以分为判别式模型与生成式模型。先问个问题,根据经验,A批模型(神经网络模型、SVM、perceptron、LR、DT……)与B批模型(NB、LDA……),有啥区别不?(这个问题需要一些模型使用经验)应该是这样的:A批模型是这么工作的,他们直接将数据的Y(或者label),根据所提供的features,学习,最后画出了一个明显或者比较明显的边界(具体怎么做到的?通过复杂的函数映射,或者决策叠加等等原创 2020-06-15 17:36:19 · 423 阅读 · 0 评论 -
机器学习概述(1)
文章目录1.统计机器学习1.1.统计学习三要素1.1.1.模型的假设空间(模型)1.1.2.模型选择的准则(策略)1.1.2.1.损失函数和风险函数1.1.2.2.期望风险1.1.2.3.经验风险1.1.3.学习模型的算法(算法)1.2.模型评估与模型选择1.3.正则化与交叉验证1.4.泛化能力1.5.监督学习1.5.1.概念1.5.2.问题形式化1.5.3.分类问题1.5.4.标注问题1.5.5.回归问题1.统计机器学习统计学习(statistical learning)是关于计算机基于数据构建概率统原创 2020-06-15 17:24:57 · 534 阅读 · 0 评论 -
Exponential family: 指数分布族
Exponential family(指数分布族)是一个经常出现的概念,但是对其定义并不是特别的清晰,今天好好看了看WIKI上的内容,有了一个大致的了解,先和大家分享下。本文基本是WIKI上部分内容的翻译。1. 几个问题 什么是指数分布族? 既然是”族“,那么族内的共同特点是什么?为何指数分布族被广泛应用?是指数分布族选择了我们,还是我们选择了指数分布族?...转载 2020-03-20 10:16:56 · 2038 阅读 · 0 评论 -
Awesome Artificial Intelligence (AI) Awesome
ContentsCourses Books Programming Philosophy Free Content Code Videos Learning Organizations Journals Competitions MiscCoursesMIT Artifical Intelligence Videos - MIT AI Course Grokkin...转载 2019-01-22 11:52:32 · 432 阅读 · 0 评论 -
降维方法小结
数据的形式是多种多样的,维度也是各不相同的,当实际问题中遇到很高的维度时,如何给他降到较低的维度上?前文提到进行属性选择,当然这是一种很好的方法,这里另外提供一种从高维特征空间向低纬特征空间映射的思路。数据降维的目的 数据降维,直观地好处是维度降低了,便于计算和可视化,其更深层次的意义在于有效信息的提取综合及无用信息的摈弃。数据降维的方法 主要的方法是线性映射和非线性映射方法两...转载 2019-02-18 10:55:15 · 1039 阅读 · 0 评论 -
TSNE
1.流形学习的概念流形学习方法(Manifold Learning),简称流形学习,自2000年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可...原创 2019-02-18 11:33:29 · 2755 阅读 · 0 评论 -
计算机会议排名等级
附件是计算机领域的学术会议等级排名情况,分为A+, A, B, C, L 共5个档次。其中A+属于顶级会议,基本是这个领域全世界大牛们参与和关注最多的会议。国内的研究者能在其中发表论文的话,是很值得骄傲的成就。A类也是非常好的会议了,尤其是一些热门的研究方向,A类的会议投稿多录用率低,部分A类会议影响力逐步逼近A+类会议。B类的会议分两种,一种称为盛会级,参与的人多,发表的论文也多,论文录用难...转载 2018-11-06 09:36:49 · 76064 阅读 · 0 评论 -
网址
Calculus on Computational Graphs: Backpropagation:http://colah.github.io/posts/2015-08-Backprop/Understanding LSTM Networkshttp://colah.github.io/posts/2015-08-Understanding-LSTMs/Understanding Convol...原创 2018-03-03 20:35:03 · 232 阅读 · 0 评论 -
awesome-datascience
Awesome Data Science An open source Data Science repository to learn and apply towards solving real world problems.Table of contentsMotivation Infographic What is Data Science? Colleges MOOC...转载 2019-01-21 10:23:31 · 871 阅读 · 0 评论 -
Reinforcement Learning 强化学习
Awesome Reinforcement Learning A curated list of resources dedicated to reinforcement learning.We have pages for other topics: awesome-rnn, awesome-deep-vision, awesome-random-forestMaintainers:...转载 2019-01-21 10:01:41 · 1560 阅读 · 0 评论 -
数学-计算机相关视频--持续更新
【公开课】MIT 6.S191- Introduction to Deep Learning 无字幕https://www.bilibili.com/video/av20001046/麻省理工公开课 多变量微积分 Denis Aurouxhttps://www.bilibili.com/video/av4695757?from=search&seid=1350134191370...原创 2019-01-13 22:35:27 · 348 阅读 · 0 评论 -
计算卷积神经网络的各层输出大小
# coding: utf-8import osimport codecsimport numpy as npfrom sklearn.preprocessing import scaleimport tensorflow as tfdef weight_variable(shape): initial = tf.truncated_normal(shape, std...原创 2018-03-04 22:05:43 · 5063 阅读 · 0 评论 -
直观地解释 back propagation 算法
作者:胡逸夫链接:https://www.zhihu.com/question/27239198/answer/89853077来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。BackPropagation算法是多层神经网络的训练中举足轻重的算法。简单的理解,它的确就是复合函数的链式法则,但其在实际运算中的意义比链式法则要大的多。要回答题主这个问题“如何直观的解释ba...转载 2018-03-04 10:01:06 · 871 阅读 · 0 评论 -
详解反向传播算法(下)
转自:https://zhuanlan.zhihu.com/p/25416673神经网络结构图:示例网络图其中C是损失函数,例如C可以取:梯度下降(SGD)进行学习时,核心问题是求解损失函数C关于所有网络参数的偏导数。 根据详解反向传播算法(上) 我们已经知道用反向传播算法可以“一次反向计算”得到损失函数C关于网络中所有参数的偏导数。模仿详解反向传播算法(上) 的推理过程,我们首先画出上面网络图的...转载 2018-03-03 21:15:04 · 575 阅读 · 0 评论 -
反向传播算法(Backpropagation)
转自:https://zhuanlan.zhihu.com/p/25081671目录:1 用计算图来解释几种求导方法:1.1 计算图1.2 两种求导模式:前向模式求导( forward-mode differentiation) 反向模式求导(reverse-mode differentiation)1.3 反向求导模式(反向传播算法)的重要性声明:本文内容来自 Calculus on Compu...转载 2018-03-03 20:46:41 · 2519 阅读 · 0 评论 -
课程--智能优化方法及其应用
智能优化方法及其应用授课老师:连宙辉 副教授http://www.icst.pku.edu.cn/zlian/course/IOMA/#Introduction:原创 2018-03-03 16:13:39 · 1366 阅读 · 0 评论 -
Principles of training multi-layer neural network using backpropagation 使用后向传播算法训练多层神经网络的规则
转自:http://home.agh.edu.pl/~vlsi/AI/backp_t_en/backprop.htmlThe project describes teaching process of multi-layer neural network employing backpropagation algorithm. To illustrate this process the thre...原创 2018-03-03 14:26:12 · 578 阅读 · 0 评论 -
UFLDL 教程学习笔记
UFLDL(Unsupervised Feature Learning and Deep Learning)Tutorial 是由 Stanford 大学的 Andrew Ng 教授及其团队编写的一套教程,内容深入浅出,有很强的实用性,学习起来,让人有种酣畅淋漓的感觉。邓侃博士于今年 2 月 20 日起,在新浪微博上召集志愿者对该教程进行翻译,并于 4 月 8 日全部完成,非常感谢所有参与者...转载 2018-02-22 16:52:07 · 405 阅读 · 0 评论 -
文本分类实战--从TFIDF到深度学习(附代码)
转自:http://blog.csdn.net/liuchonge/article/details/72614524这几周因为在做竞赛所以没怎么看论文刷题写博客,今天抽时间把竞赛用到的东西总结一下。先试水了一个很小众的比赛–文因互联,由AI100举办,参赛队不足20个,赛题类型是文本分类。选择参赛的主要原因是其不像阿里们举办的竞赛那样,分分钟就干一件事就是特征工程和调参,然后数据又多又乱,不适合入...转载 2018-02-09 16:28:29 · 3177 阅读 · 1 评论 -
朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
在文本分类中,假设我们有一个文档d∈X,X是文档向量空间(document space),和一个固定的类集合C={c1,c2,…,cj},类别又称为标签。显然,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c>∈X×C。例如:<d,c>={Beijing joins the World Trade Organizatio...转载 2018-04-22 23:09:32 · 43464 阅读 · 5 评论 -
机器学习(1)概论
概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。学科定位:人工智能(Artificial Intelligence, AI)的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。定义:探究和开发一系列算法来...原创 2018-05-13 16:12:37 · 284 阅读 · 0 评论 -
机器学习(2)基本概念
1. 基本概念:训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归2. 概念学习:人类学习概念:鸟,车,计算机 定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数3. 例子:学习 “享受运动" 这一概念: 小明进行水上运动,是否享受运动取决于很多因素 样例天气温度湿度风力水温预报享受运动1晴暖普通强暖一样是2晴暖大强暖一样是...原创 2018-05-13 16:23:37 · 181 阅读 · 0 评论 -
一文纵览全球36个AI会议:机器学习十年发展回顾
from:http://www.sohu.com/a/283928293_473283作者:爱思美谱(id:acemap_)指导教师:王新兵 教授【新智元导读】根据CCF推荐目录,Acemap对人工智能方向36个会议(A类7个、B类12个、C类17个)会议进行了多角度、全方位的立体画像。分别从会议中稿量、会议H-index、会议文章引用量、会议核心作者、会议影响力和论文数量的tra...转载 2018-12-24 10:06:12 · 289 阅读 · 0 评论