遇见AI,从Java到数据挖掘。

在上小学的时候就听说过AI,人工智能,那个时候我对人工智能的感受都来自于各类影视作品,类人的外表,能听说读写,有情感,会思考。所以那个时候的我将人工智能想象成和人类相似的一样东西,对人工智能的理解也仅此而已,总是好奇人工智能是如何发明出来的,没有一点头绪,甚至在那个时候,我都不知道遥控器为什么能够控制玩具赛车行驶,电脑上的软件,浏览器观看的网页是怎么被人“发明”出来的。这些用手摸不着只能靠想象的东西...
阅读(1259) 评论(3)

Mac OS X与Windows下TensorFlow的安装与升级

前几天得知TensorFlow 1.0版本发布了,又一个偶然的机会,知道了国内第一本关于TensorFlow的中文书籍——《TensorFlow实战》,所以买来打算跟着书本学习,这篇文章是为了记录我安装TensorFlow时遇到的问题。 书中使用的TensorFlow版本是1.0.0,默认使用Python3.5作为Python基础版本。 由于我之前Mac上安装过0.9版本的TensorFlow...
阅读(1819) 评论(2)

从几何角度切入最近邻

我们可以将预测任务看成是将一些输入映射成输出的过程。将输入分解成一系列特征集合,来形成对学习有用的抽象,因此,输入就是一系列特征值。我们从几何学的角度来看待这些数据,每一个特征是空间中的一个维度,因此每个数据点可以映射成高维空间中的点。把数据集看作是高维空间中的点之后,我们可以在这些点上进行几何运算。比如,假如你想预测同学A是否会喜欢算法这门课程,我们可以找一位与同学A相似的同学B,假如同学B喜欢算...
阅读(3650) 评论(0)

在Kaggle手写数字数据集上使用Spark MLlib的RandomForest进行手写数字识别

昨天我使用Spark MLlib的朴素贝叶斯进行手写数字识别,准确率在0.83左右,今天使用了RandomForest来训练模型,并进行了参数调优。首先来说说RandomForest 训练分类器时使用到的一些参数: numTrees:随机森林中树的数目。增大这个数值可以减小预测的方差,提高预测试验的准确性,训练时间会线性地随之增长。 maxDepth:随机森林中每棵树的深度。增加这个值可以是模型更具...
阅读(12108) 评论(0)

在Kaggle手写数字数据集上使用Spark MLlib的朴素贝叶斯模型进行手写数字识别

昨天我在Kaggle上下载了一份用于手写数字识别的数据集,想通过最近学习到的一些方法来训练一个模型进行手写数字识别。这些数据集是从28×28像素大小的手写数字灰度图像中得来,其中训练数据第一个元素是具体的手写数字,剩下的784个元素是手写数字灰度图像每个像素的灰度值,范围为[0,255],测试数据则没有训练数据中的第一个元素,只包含784个灰度值。现在我打算使用Spark MLlib中提供的朴素贝叶...
阅读(8518) 评论(0)

多层网络和反向传播笔记

在我之前的博客中讲到了感知器(感知器),它是用于线性可分模式分类的最简单的神经网络模型,单个感知器只能表示线性的决策面,而反向传播算法所学习的多层网络能够表示种类繁多的非线性曲面。对于多层网络,如果使用线性单元的话,多个线性单元的连接仍然是线性函数,所以还不能表征非线性函数。使用感知器单元,但是它不连续所以也就不可微,不适合梯度下降算法。我们需要这么一种单元,它的输出是输入的非线性函数,而且输出是输...
阅读(8858) 评论(1)

决策树

决策树是应用最广的归纳推理算法之一,它是一种逼近离散函数方法,对噪声数据有很好的鲁棒性,能够学习析取表达式,广为应用的算法有ID3,ASSISTANT和C4.5。通常决策树代表实例属性值约束的合取(conjunction)的析取式(disjunction)。树根到树叶的每一条路径对应一组属性测试的合取,而整棵树是这些合取的析取。基本的ID3算法是通过自顶向下构造决策树进行学习的。首先考虑的问题是哪一...
阅读(5995) 评论(0)

最小二乘(Least Squares)

已经很久没有写博客了,今天决定写一篇关于最小二乘的博客,发表下自己的理解,有不足或错误之处,欢迎大家指正。最小二乘,又被叫做最小乘方or最小平方,它是一种优化技术。当给你一堆数据点,你可以想象成初中数学课堂上学习解析几何的时候,在坐标轴上给出一些点(通常这些点连起来是一条直线),然后要求算出这条直线的解析式(也就是拟合这些数据点),或计算斜率(可以理解成回归系数),然后要你算出当x等于多少时y的值之...
阅读(3517) 评论(0)

贝叶斯思维漫步

现在仍然记得大学最“无聊”的一堂课之一——概率论,出勤人数三个班加起来也没超过正常一个班的数量,当然最后一堂课除外(笑)。个人感觉上课也比较枯燥,当时完全不知道概率论可以用在什么方面,所有听课也就不是那么认真,结果就是期末考试只有70多分(想想当年高数90多线性代数也90······)。然而随着大学毕业,概率论也就离我远去,好像不会再有交集。后来开始“专研”机器学习方面的知识,“朴素贝叶斯”这个名词...
阅读(4411) 评论(2)

机器学习实战线性回归局部加权线性回归笔记

线性回归 用线性回归找到最佳拟合直线回归的目的是预测数值型数据,根据输入写出一个目标值的计算公式,这个公式就是回归方程(regression equation),变量前的系数(比如一元一次方程)称为回归系数(regression weights)。求这些回归系数的过程就是回归。假设输入数据存放在矩阵X X中,回归系数存放在向量w w中,那么对于数据X 1  X_1的预测结果可以用Y 1 =X T...
阅读(4495) 评论(3)

混沌,分形与人工智能

混沌这里所说的混沌并不是混乱之意,而是世间万物的一种属性。人们试图找到自然界事物发展的一定定律,然后用数学公式抽象出来,希望能预测将来事物发展轨迹,大部分时候可以奏效,但是极少时候也会出现问题,出现不可预测情况,比如气候骤变,股市突然暴跌。这些都体现了事物的混沌属性。混沌,是指在一个能被数学方程式精确描述的系统中,可以自发生成不可预测的现象,并且不需要任何外界的干预。有一种误解是,认为混沌就是一切事...
阅读(3446) 评论(4)

机器学习实战Logistic回归笔记

假设我们有一些数据点,我们使用一条直线对这些点进行拟合,这条线称为最佳拟合直线,这个拟合过程称为回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。我们想要得到一个函数,能够接受所有的输入然后预测出类别。例如在两个类的情况下,函数输出0或1。该函数称为海维塞德阶跃函数(Heaviside step function),或者直接称为单位阶跃函数。但是...
阅读(3777) 评论(0)

智能Agent笔记

理性Agent:追求尽可能好的行为表现。Agent表现如何取决于环境的本质。Agent通过传感器感知环境并通过执行器对所处环境产生影响。Agent的感知序列是该Agent所收到的所有输入数据的完整历史。一般地,Agent在任何给定时刻的行动选择依赖于到那个时刻为止该Agent的整个感知序列,而不是那些它感知不到的东西。从数学角度看,我们可以说Agent函数描述了Agent的行为,它将任意给定感知序列...
阅读(2290) 评论(0)

Machine Learning With Spark学习笔记(在10万电影数据上训练、使用推荐模型)

我们现在开始训练模型,还输入参数如下: rank:ALS中因子的个数,通常来说越大越好,但是对内存占用率有直接影响,通常rank在10到200之间。 iterations:迭代次数,每次迭代都会减少ALS的重构误差。在几次迭代之后,ALS模型都会收敛得到一个不错的结果,所以大多情况下不需要太多的迭代(通常是10次)。 lambda:模型的正则化参数,控制着避免过度拟合,值越大,越正则化。我们将...
阅读(3517) 评论(1)

Machine Learning With Spark学习笔记(提取10万电影数据特征)

注:原文中的代码是在spark-shell中编写执行的,本人的是在eclipse中编写执行,所以结果输出形式可能会与这本书中的不太一样。首先将用户数据u.data读入SparkContext中,然后输出第一条数据看看效果,代码如下:val sc = new SparkContext("local", "ExtractFeatures") val rawData = sc.textFile("F:\\...
阅读(3203) 评论(0)

Machine Learning With Spark学习笔记

此笔记为本人在阅读Machine Learning With Spark的时候所做的,笔记有翻译不准确或错误的地方欢迎大家指正。Spark集群Spark集群由两种进程组成:一个驱动程序和多个执行程序。在本地模式下,所有的进程都在同一个Java虚拟机中运行。在集群上,这些进程则通常在多个节点上运行。比如,在单机环境下运行的集群有以下特征: 1、一个主节点作为spark单机模式的主进程和驱动程序。...
阅读(3266) 评论(1)

支持向量机笔记

支持向量机是一种通用的前馈网络类型。 主要思想: 给定训练样本,支持向量机建立一个超平面作为决策面,使得正例和反例之间的间隔边缘被最大化。...
阅读(2723) 评论(0)

神经网络与机器学习笔记——K-均值聚类

聚类是非监督学习的一种形式,它将一个观测集(即数据点)划分到自然组或模式聚类。聚类的途径是测量分配给每个聚类的观测对之间的相似性以最小化一个指定的代价函数。 K-均值(K-means)简单易实现,同时具有良好的性能。 聚类重新定义: 给定N个观测值得集合,通过以下方式寻找编码器C:将这些观测值分配给K个聚类,使得在每个聚类中,给定的观测值与聚类均值的不相似性的平均度量最小。...
阅读(3130) 评论(0)

神经网络与机器学习笔记——贝叶斯分类器

高斯环境下贝叶斯分类器退化为线性分类器,与感知器形式一样,但是感知器的线性特性并不是由于高斯假设而引起的。 贝叶斯分类器: 高斯分布下的贝叶斯分类器...
阅读(3423) 评论(0)

神经网络与机器学习笔记——Rosenblatt感知器

Rosenblatt感知器 感知器是用于线性可分模式(模式分别位于超平面两边)分类的最简单的神经网络模型,基本上由一个具有可调突触权值和偏置的神经元组成。 Rosenblatt证明了当用来训练感知器的模式(向量)取自两个线性可分的类时,感知器算法是收敛的,并且决策面是位于两类之间的超平面。算法的收敛性称为感知器收敛定理。...
阅读(3987) 评论(5)
45条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:137953次
    • 积分:1843
    • 等级:
    • 排名:千里之外
    • 原创:42篇
    • 转载:0篇
    • 译文:3篇
    • 评论:31条
    博客专栏
    最新评论