机器学习
文章平均质量分 80
yang蜗牛
中山大学16级数据科学与计算机学院软件工程硕士,研究方向为自然语言处理,基于深度学习的文本情感分析
展开
-
【机器学习】KNN(k-Nearest Neighbor)算法
K近邻(k-Nearest Neighbor, 简称KNN)算法是一种非常简单的机器学习监督算法。它的主要思想是:给定一个测试数据,如果离它最近的K个训练数据大多都属于某一个类别,则认为该测试数据也属于这个类别。以下图为例,图中的绿色点表示测试数据,现在我们需要判断这个点应该是红色三角形还是蓝色正方形。按照上述思想,如果K取3,则离绿色点最近的点中有两个是红色三角形,一个是蓝色正方形,因此KNN判断原创 2017-02-27 20:47:32 · 10917 阅读 · 0 评论 -
【机器学习】文本数据简单向量化
一个文本数据指的是一篇文章,或者一段话,或者一句话。这个文本数据通常称为document,或者text。我们平常的文本都是以人的表达方式展现的,是一个流数据,时间序列数据。我们如果要用计算机对文本数据进行处理,就必须将文本数据表示为计算机能理解的方式。这篇博客就讲解给定一个已经分词、去除停用词后的文本数据集,如何将其向量化的方法。one-hot表示法one-hot表示法先将文本数据集中不重复的单词提原创 2017-02-27 22:13:40 · 13422 阅读 · 0 评论 -
【机器学习】判别模型vs生成模型
判别模型vs生成模型条件概率分布p(y|x)从概率的角度来看监督学习的话,其实就是从数据集中学习条件概率分布p(y|x)。其中,x∈Rnx \in R^n表示n维数据特征,y∈Ry \in R表示数据对应的类别标签。给定一个x,模型计算出x属于各个类别标签y的概率p(y|x),然后判定x的预测标签为p(y|x)最大的y标签。比如,现在的一个问题为判定一个动物是汪星人还是喵星人。这个问题可以表示为x=原创 2017-02-28 22:39:15 · 760 阅读 · 0 评论