自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 手把手用 IntelliJ IDEA 和 SBT 创建 scala 项目

1. 安装 sbt打开 terminal,检查 java 版本,安装 sbt: http://www.scala-sbt.org/release/docs/Installing-sbt-on-Mac.html$ java -version$ brew install sbt$ sbt aboutGetting org.scala-sbt sbt 0.13.162. 下载 jetbrains 的

2017-07-31 11:42:08 30252

原创 attention 机制入门

在下面这两篇文章中都有提到 attention 机制: 使聊天机器人的对话更有营养 如何自动生成文章摘要今天来看看 attention 是什么。下面这篇论文算是在NLP中第一个使用attention机制的工作。他们把attention机制用到了神经网络机器翻译(NMT)上,NMT其实就是一个典型的sequence to sequence模型,也就是一个encoder to decoder模型

2017-07-28 22:53:31 11656

原创 一个 tflearn 情感分析小例子

学习资料: https://www.youtube.com/watch?v=si8zZHkufRY&list=PL2-dafEMk2A7YdKv4XfKpfbTH5z6rEEj3&index=5情感分析, 就是要识别出用户对一件事一个物或一个人的看法、态度,比如一个电影的评论,一个商品的评价,一次体验的感想等等。根据对带有情感色彩的主观性文本进行分析,识别出用户的态度,是喜欢,讨厌,还是中立。关

2017-07-27 10:51:50 9730 5

原创 使聊天机器人的对话更有营养

本文结构:模型效果模型模块细节今天的论文是 《Topic Aware Neural Response Generation》https://arxiv.org/pdf/1606.08340.pdf这篇论文的目的是让聊天机器人的回复更有营养,例如下面这种场景,要尽量避免‘我也是’‘明白了’‘不知道’这种没有信息量的回复,而是可以给出一些建议和方案等:模型思路是输入句子后,先预测 topics,

2017-07-26 10:42:38 6090 13

原创 使聊天机器人具有个性

本文结构:模型效果模型的三个模块模块细节今天的论文是 《Assigning Personality/Identity to a Chatting Machine for Coherent Conversation Generation》https://arxiv.org/pdf/1706.02861.pdf当我们在和聊天机器人互动时,最开始往往很好奇的就是对方到底是人还是机器人呢,所以会问到

2017-07-18 10:27:52 6158 4

原创 用 Doc2Vec 得到文档/段落/句子的向量表达

本文结构:Doc2Vec 有什么用两种实现方法用 Gensim 训练 Doc2VecDoc2Vec 或者叫做 paragraph2vec, sentence embeddings,是一种非监督式算法,可以获得 sentences/paragraphs/documents 的向量表达,是 word2vec 的拓展。学出来的向量可以通过计算距离来找 sentences/paragraphs/do

2017-07-14 10:13:44 28479 4

原创 用线性判别分析 LDA 降维

本文结构:什么是 LDA和 PCA 区别LDA 降维的计算过程LDA 降维的例子1. 什么是 LDA先说判别分析,Discriminant Analysis 就是根据研究对象的各种特征值,判别其类型归属问题的一种多变量统计分析方法。根据判别标准不同,可以分为距离判别、Fisher 判别、Bayes 判别法等。例如,在 KNN 中用的是距离判别,朴素贝叶斯分类用的是 Bayes 判别,线性判

2017-07-12 11:54:18 5964

原创 简述极大似然估计

极大似然估计是一种参数估计的方法。 先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最可能的原因。 即它的核心思想是:找到参数 θ 的一个估计值,使得当前样本出现的可能性最大。例如,当其他条件一样时,抽烟者患肺癌的概率是不抽烟者的 5 倍,那么当我们已知现在有个人是肺癌患者,问这个人是抽烟还是不抽烟?大多数人都会选择抽烟,因为这个答案是“最有可能”得到“肺癌”这样的结果。为什么要有

2017-07-10 10:29:07 3711

原创 详解 Stacking 的 python 实现

1. 什么是 stackingstacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。2. 代码:例如我们用 RandomForestClassifier, ExtraTreesClassifier, GradientBoostingClassifier 作为第一层学习器: # Our level 0 classifiers

2017-07-09 09:27:20 12283 1

原创 Bagging 简述

本文结构:基本流程有放回抽样的好处Bagging 特点sklearn 中 Bagging 使用Bagging 和 Boosting 的区别bagging:bootstrap aggregating 的缩写。 是一种并行式集成学习方法,可用于二分类,多分类,回归等任务。基本流程:对一个包含 m 个样本的数据集,有放回地进行 m 次随机采样,这样得到具有 m 个样本的采样集。取 T 个

2017-07-07 09:25:48 9791

原创 什么是 ROC AUC

本文结构:什么是 ROC?怎么解读 ROC 曲线?如何画 ROC 曲线?代码?什么是 AUC?代码?ROC 曲线和 AUC 常被用来评价一个二值分类器的优劣。先来看一下混淆矩阵中的各个元素,在后面会用到:1. ROC :纵轴为 TPR 真正例率,预测为正且实际为正的样本占所有正例样本的比例。 横轴为 FPR 假正例率,预测为正但实际为负的样本占所有负例样本的比例。对角线对应的是 “随

2017-07-04 12:18:15 3098 2

原创 机器学习中常用评估指标汇总

评估指标 Evaluation metrics 可以说明模型的性能,辨别模型的结果。我们建立一个模型后,计算指标,从指标获取反馈,再继续改进模型,直到达到理想的准确度。在预测之前检查模型的准确度至关重要,而不应该建立一个模型后,就直接将模型应用到看不见的数据上。今天先来简单介绍几种回归和分类常用的评估方法。回归:均方误差:其中 D 为数据分布,p 为概率密度函数。from sklearn.metri

2017-07-03 11:52:28 4711 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除