自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 1数据分析是什么

1数据分析是什么一.数据分析与数据挖掘的关系传统的统计分析是在已定假设、先验约束上,对数据进行整理、筛选和加工,由此得到一些信息,而这些信息需要进一步的认知,用于有效的预测和决策,这样的过程则是数据挖掘的过程。统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。广义上的数据分析是指整个过程,即从数据到认知。二.机器学习与数据分析的关系机器学习是人工智能的核心领域之一,最初的目的...

2019-12-25 10:02:40 436

原创 4scikit-learn实现数据的分析

SciPy是一个常用的开源Python科学计算工具包,开发者针对不同领域的特性发展了众多的SciPy分支,统称为scikits,其中以scikit-learn最为著名,经常被运用在数据挖掘建模以及机器学习领域。一.分类方法1.Logistic回归scikit-learn中的Logistic回归在sklearn.linear_model.LogisticRegression类中实现,支持...

2019-12-25 10:01:08 480

原创 3数据分析与知识发现

在数据分析中包括四大经典算法——关系模式、分类、聚类、回归。一.分类分析分类是找出数据库中一组数据对象的共同特点并按照分类模式将它们划分为不同的类,其目的是通过分类模型将数据库中的数据项映射到某个给定的类别。分类学习是一类监督学习的问题,训练数据会包含其分类结果,根据分类结果可以分为以下几类:二分类问题:是与非的判断,分类结果为两类,从中选择一个作为预测结果。多分类问题:分类结果为多个类...

2019-12-25 09:33:54 2130

原创 2数据预处理

一.了解数据数据分为定性数据和定量数据。定性数据包括两个基本层次,即定序(ordinal)和名义(nominal)层次。定序变量指该变量只是对某些特性的“多少”进行排序,但是各个等级之间的差别不确定。名义变量则是指该变量只是测量某种特征的出现或者不出现。每一个细致的数据分析者首先需要考查每个变量的关键特征,通过这个过程可以更好地感受数据,其中有两个特征需要特别关注,即集中趋势(central ...

2019-12-25 09:31:20 655

原创 2.3代价函数的直观理解

通过这些图形,我们能更好地理解这些代价函数J所表达的值是什么样的,它们对应的假设是什么,以及什么样的假设对应的点更接近于代价函数J 的最小值。当然,我们真正需要的是一种有效的算法,能够自动地找出这些使代价函数J取最小值的参数θ₀和θ₁来。...

2019-05-21 21:05:31 264

原创 2.2代价函数

在线性回归中我们有一个像这样的训练集,m代表了训练样本的数量,比如m=47。而我们的假设函数,也就是用来预测的函数,是这样的线性函数形式:h(x)=θ₀+θ₁x。我们要做的是为我们的模型选择合适的参数(parameters)θ₀和θ₁,在房价问题例子中便是直线的斜率和在y轴上的截距。我们选择的参数决定了我们得到的直线相对于我们的训练集的准确程度,模型所预测的值与训练集中实际值之间的差距(下图...

2019-05-21 21:02:19 120

原创 2.1单变量线性回归模型表示

首先举一个预测住房价格的例子,其中使用的数据集为某市住房尺寸及对应的价格。如果一间住房面积为1250平方尺,这间住房能卖多少钱?那么,第一件事就是构建一个模型,也许是条直线,从这个数据模型上看,大约能以220000(美元)左右的价格卖掉这间房子。这就是监督学习算法的一个例子。它被称作监督学习是因为对于每个数据来说,我们给出了“正确的答案”,即告诉我们:根据我们的数据来说,房子实际的价格是多少,更...

2019-05-21 20:57:41 229

原创 1.4无监督学习

监督学习,如图表所示,这个数据集种每条数据都已经表明是阴性或阳性,即是良性或恶性肿瘤。所以,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案是良性或恶性了。在无监督学习中,我们已知的数据不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。针对数据集,无监督学习就能判断出数据有两...

2019-04-18 00:20:48 211

原创 1.3监督学习

假如说你想预测房价,把房价的数据表示出来:横轴表示房子的面积,纵轴表示房价,基于这组数据预测750平方英尺房子的房价。应用学习算法,可以在这组数据中画一条直线,或者换句话说,拟合一条直线,根据这条线我们可以推测出,这套房子可能$150,000,当然这不是唯一的算法,可能还有更好的,比如我们不用直线拟合这些数据,用二次方程去拟合可能效果会更好。根据二次方程的曲线,我们可以从这个点推测出,这套房子...

2019-04-12 23:27:41 196

原创 1.2机器学习定义

实际上,即使是在机器学习的专业人士中,也不存在一个被广泛认可的定义来准确定义机器学习是什么或者不是什么,一些人们尝试定义的示例:第一个机器学习的定义来自于Arthur Samuel。他定义机器学习为,在进行特定编程的情况下,给予计算机学习能力的领域。Samuel的定义可以回溯到50年代,他编写了一个西洋棋程序,这程序神奇之处在于,编程者自己并不是个下棋高手,于是就通过编程,让西洋棋程序自己跟自己...

2019-04-11 23:34:55 224

原创 1.1初识机器学习

1.1初识机器学习什么是机器学习?机器学习能做些什么?打开谷歌、必应搜索到需要的内容,正是因为其良好的学习算法,谷歌和微软实现了学习算法来排列网页。用Facebook或苹果的图片分类程序它能认出你朋友的照片,这也是机器学习。阅读电子邮件时,垃圾邮件筛选器可以帮你过滤大量的垃圾邮件,这也是一种学习算法。做出一个和人类一样聪明的机器,任重而道远。许多AI研究者认为,实现这个目标最好的方法是通过让机...

2019-04-10 23:23:25 105

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除