数据科学
昵称我不需要
这个作者很懒,什么都没留下…
展开
-
数据科学20:文本挖掘2
数据科学20:文本挖掘2Jun 26th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”一、对词条-文档矩阵的操作在’tm’包中,提供了一些常用的函数,可以对得到的Document Term Matrix进行一些操作。当然,我们也可以使用自己的方式,对该矩阵进行一些探索,比如,我们先来看看词条的频数:1.1 词条频数转载 2015-01-26 14:16:55 · 870 阅读 · 0 评论 -
数据科学之机器学习8: 决策树之ID3
“文章原创,转载请注明出处”ID3算法的核心问题就在于:如何选取在决策树的每个节点处要测试的属性。那么如何去选择呢?当然,我们要选取分类能力最好的属性,那么怎么去确定哪个属性是分类能力最好的呢?ID3算法中,使用信息增益作为评判标准。在看信息增益之前,我们先看看这个决策树的构造过程:一、构造过程选取分类能力最好的属性作为决策树根部节点的测试;为根节点属性的每一个可能值产转载 2014-05-09 14:47:25 · 963 阅读 · 0 评论 -
数据科学之机器学习7: 决策树
“文章原创,转载请注明出处”一、开始在介绍决策树的概念内容之前,先来初步了解一下决策树的流程。这是一个很简单的概念,通过一张简单的流程图就可以大致了解决策树是干什么的,怎么干的。二、相关概念1. 一些概念决策树学习是一种逼近离散值目标函数的方法。决策树通过把实例从根节点排列到某个叶子节点来分类实例,叶子的节点即为实例所属的分类。决策树上的每一转载 2014-05-09 14:46:21 · 857 阅读 · 0 评论 -
数据科学之机器学习6: 分类之朴素贝叶斯
“文章原创,转载请注明出处”0、kNN算法的优缺点与kNN算法一样,朴素贝叶斯算法也是数据挖掘十大算法之一。我们介绍kNN算法时,并没有讨论kNN算法的优缺点,这边首先看看这个问题。从构造kNN算法的过程可以看到,这个分类算法的精度很高。因为这个算法计算了所有点与待分类点之间的相似度,然后去确定带分类点的类别。由此可见,这个算法对异常值并不敏感。但是正是因为它需要计算所有点之间转载 2014-05-09 14:45:20 · 886 阅读 · 0 评论 -
数据科学之机器学习5:分类之k-近邻算法
“文章原创,转载请注明出处”基本思想kNN,k-Nearest Neighbor algorithm,也就这边的k-近邻算法,是数据挖掘十大算法之一,是一个比较简单的分类方法。其基本的思想是:对于一个输入样本(未知分类的样本),考虑其与测试样本中与之距离最近(特征最相似)的k个样本,用这k个样本中出现最多的分类作为输入样本的分类。具体流程对于输入样本中的每一转载 2014-05-09 14:43:52 · 687 阅读 · 0 评论 -
数据科学之机器学习4:线性回归3
“文章原创,转载请注明出处”这是介绍线性回归的最后一篇,首先回顾一下之前的两篇。第一篇主要就是介绍了如何去估计回归系数得到回归方程,以及在R语言中如何使用自带的函数去实现。第二篇主要介绍了对于回归方程和回归系数的显著性检验,以及给出了我自己写的一个处理线性回归的函数。这一篇介绍线性回归中回归诊断的一些问题,也就是估计出回归方程,检验了回归方程的显著性以及回归系数的显著性后,对这个模型所转载 2014-05-09 14:41:54 · 1272 阅读 · 0 评论 -
数据科学之机器学习2:线性回归1
“文章原创,转载请注明出处”一、回归分析在统计分析中,最大的两支应该算是相关分析和回归分析。而回归分析应该是统计学的核心。回归分析,就是研究因变量y与自变量x之间的关系,存在条件数学期望:f(x)=E(y|x)。此时有:y=f(x)+ε,一般假设ε∼N(0,σ2)。回归分析有很多变种:简单线性回归;多项式回归;Logistic回归;非参数回归;非线性回归等等。本篇就介绍最简转载 2014-05-09 14:39:06 · 1066 阅读 · 0 评论 -
数据科学之机器学习1:简介
机器学习的定义一般来说,教科书介绍一样东西,首先会给它下一个确切的定义。不过,对于机器学习的定义,我还真不知道该怎么去下。有太多的版本,太多的述说方式,不知道用哪个好。这里就列举一些我觉得有代表性的,讲的容易懂的那些定义。对于机器学习是什么,看看这些定义,应该就能够有个大致的了解了。首先,在“Machine Learning: the art and science of转载 2014-05-09 14:37:16 · 844 阅读 · 0 评论 -
数据科学之机器学习14: 关联分析之apriori算法
“文章原创,转载请注明出处”在上一篇中,我们介绍了关联分析相关的概念,这一节来看看如何使用Apriori算法去寻找满足条件的项集。首先回顾一个概念,一个项集的支持度就是数据集中该项集所占的比例。Apriori算法就是用于寻找数据集中,支持度和可信度超过某一给定值的项集和关联规则。一、原理在介绍算法之前,首先了解一个集合论中的性质定理:集合的向下封闭性。我们通过一转载 2014-05-09 14:54:02 · 1288 阅读 · 0 评论 -
数据科学之机器学习9: 聚类算法之KMeans
“文章原创,转载请注明出处”The k-means algorithm前面写了很多监督学习的东西,除了回归就是分类,今儿有点想换换口味,写写无监督学习的算法。k-means算法是一种聚类算法,聚类就是无监督学习里面的内容。那么先来说说聚类:一、聚类简介聚类是一种无监督学习方法,它主要就是将相似的对象归并到一个类别中。聚类分析的目的是把分类对象按照转载 2014-05-09 14:48:26 · 1204 阅读 · 0 评论 -
数据科学之机器学习10: 聚类分析1
“文章原创,转载请注明出处”上一篇介绍了聚类分析中的KMeans算法,这一节就来具体地说说聚类分析。聚类分析,cluster analysis,是一种研究“物以类聚”现代统计学分析方法,其目的是要把分类对象按照一定的规则分成若干个类。这些类别并非事先给定的,而是根据数据的特征确定的。NOTE:聚类的划分:根据分类对象的不同,可以分为:Q型聚类分析和R型聚类分析。Q型转载 2014-05-09 14:49:28 · 3179 阅读 · 0 评论 -
数据科学19:文本挖掘1-更新
数据科学19:文本挖掘1-更新Jun 25th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”前几天,R中的’tm’包从0.5-10更新到了0.6版本。其中更新了不少的东西,对于上一篇中的代码,已经是不能够正确运行了。所以这里需要先更新一下上一篇中的一些代码,正好可以回顾一些之前的流程。12345678910转载 2015-01-26 14:08:58 · 689 阅读 · 0 评论 -
数据科学18:文本挖掘1
数据科学18:文本挖掘1Jun 18th, 2014图片由本文中数据生产~“文章原创,转载请注明出处”文本挖掘,也称为文本数据挖掘,意思就如字面,对文本数据进行挖掘分析。文本挖掘一般包含:文本分类、文本聚类、概念实体挖掘、自然语言处理等等。接下来,我打算用一个简单的例子,介绍一下R语言文本挖掘的一般过程,顺便介绍一些文本挖掘中的概念。这边主要使用R中的tm包进行文本转载 2015-01-26 14:05:58 · 1078 阅读 · 0 评论 -
数据科学之机器学习17:因子分析2
图片来源于网址“文章原创,转载请注明出处”这两天来了个同学,大家聚了聚,我也乘机休息了两天(好奢侈!)。这两天属于什么都没有写,就翻看了两本书。一本是二月河的康熙大帝,另外一本是推荐系统实践,这本书的电子版,图灵正在打折,有兴趣可以买本看看。好了,不废话了,下面就接着上一篇讲的继续!上一篇简单介绍了因子分析的一些概念,以及最基础的因子模型:正交因子模型。那么这一篇,就来说说正交转载 2014-05-21 15:44:40 · 1191 阅读 · 0 评论 -
数据科学之机器学习16:因子分析1
图片来源于网址“文章原创,转载请注明出处”前一篇介绍的主成分分析(PCA),是一种降维技术;这一篇介绍的因子分析也是一种降维的方法,不仅如此,还可以将因子分析看作是主成分分析的一种推广和发展。与之主成分分析相比较,因子分析更为灵活,对变量降维后的解释能够更加清楚。但因子分析和主成分分析有非常多的不同点。主成分分析不能作为一个模型来描述,主成分是观测变量的线性组合;因子分析需转载 2014-05-15 10:21:23 · 1664 阅读 · 0 评论 -
数据科学之机器学习15: 主成分分析
图片为:本文实例数据得到的,前两个主成分的散点图!“文章原创,转载请注明出处”在之前线性回归3提到多重共线性问题,当时说了一些解决这个问题的办法,其中一种就是今天要说的主成分分析。主成分分析,Principal Components Analysis,简称PCA,是变量选择的一种方法。其一般的目的就是:变量的降维和主成分的解释!当主成分用于聚类或者回归,这个时候就是在做变量的降维;转载 2014-05-14 09:36:20 · 1229 阅读 · 0 评论 -
数据科学之机器学习12: Logisic回归
“文章原创,转载请注明出处”在数据科学系列的开头,花了三篇介绍了线性回归。线性回归模型应该是定量分析中最常用的一种统计分析方法。但是线性回归处理数据时,要求因变量是连续型变量。但是很多时候,需要处理的数据,其因变量并不是连续的。像性别、对错等等,这种离散的因变量,一般称为分类响应变量。在机器学习的介绍篇中,已经介绍了监督学习与非监督学习。在监督学习中,最主要的两类问题,一个就是回归,另转载 2014-05-09 14:51:33 · 1102 阅读 · 0 评论 -
数据科学之机器学习13: 关联分析
标题图片出处:Rule Generation“文章原创,转载请注明出处”一、简介在统计学中,变量与变量之间的关系是统计结构的重要参数,统计的核心问题也就是研究变量与变量之间的关系。如果变量与变量之间不独立,那么这两个变量之间肯定存在一定的关联性,那么如何处理度量这个关联性,在统计中就称为关联分析。列联表是传统统计学中度量两个分类变量之间关系强弱的方法,但是这个方法是对于转载 2014-05-09 14:52:38 · 1618 阅读 · 0 评论 -
数据科学之机器学习11: 聚类分析2
“文章原创,转载请注明出处”上一篇介绍了聚类分析的定义,给出了很多不同的相似性的度量方法。这一篇主要想介绍一下除了快速聚类之外的另外一种聚类方法:系统聚类法。二、系统聚类法系统聚类法,hierarchical clustering method,是聚类分析方法中用的较多的一种。其具体过程如下:对于n个样品,构造n个类,每个样品单独作为一类。计算每个类之间的距离;合并转载 2014-05-09 14:50:32 · 1106 阅读 · 0 评论 -
数据科学之机器学习3:线性回归2
“文章原创,转载请注明出处”上一篇简单介绍了线性回归中系数估计的问题,给出了一元以及多元情况下,系数估计值的表达式!此外,还给出了在R语言中如何使用自带的函数计算系数估计值。这一篇,打算介绍一下线性回归中的一些显著性检验问题。这个就是完全属于统计学中的理论内容,不过依旧有着很强的实际意义。简单来说,显著性检验不能通过,说明你的线性回归的效果不好,可能你就需要选择其它的方式去处理你手头的转载 2014-05-09 14:40:38 · 795 阅读 · 0 评论