机器学习
野马16
欢迎留言,邮箱horacehe15@163.com
展开
-
分类与聚类的本质区别——机器学习
机器学习中有常见的两类大问题,一个是分类,一个是聚类。 分类与聚类的比较聚类分析是研究如何在没有训练的条件下把样本划分为若干类。在分类中,已知存在哪些类,即对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。聚类需要解决的问题是将已给定的若干无标记的模式聚集起来使之成为有意义的聚类,聚类是在预先不知道目标数据库到底有多少类的情况下,希望将所有的记录组成不同的类或者说聚...转载 2018-04-24 09:10:01 · 18731 阅读 · 0 评论 -
朴素贝叶斯分类算法——机器学习
使用朴素贝叶斯进行分类一、朴素贝叶斯公式如下二、朴素贝叶斯分类的正式定义如下1、设 x={a1,a2,...,am} 为一个待分类项,而每个a为x的一个特征属性。2、现有已分类的类别集合 C={y1,y2,..,y3}。3、计算 P(y1|x), P(y2|x), ...,P(yn|x)。(其中计算第3步是关键,详细算法见第四大点)4、如果 P(yk|x)=max{P(y1|x), P(y2|x)...原创 2018-04-29 09:52:05 · 693 阅读 · 0 评论 -
决策树学习(上)——深度原理剖析及源码实现
引言本文给大家分享的主题是决策树(Decision Tree)的原理剖析并附上代码实现供大家参考。由于基于决策树的算法较多,因此文章分为上下篇。上篇主要剖析决策树原理、需要掌握的信息论知识以及Java源码实现等内容。下篇内容包括基于决策树的ID3、CART以及C4.5等著名算法的深入比较、理解以及完整代码实现。决策树是数据挖掘以及机器学习领域一个基础的算法。在此基础上产生诸多著名算法如ID3,CA...转载 2018-05-14 22:46:02 · 1079 阅读 · 0 评论 -
决策树学习(下)——ID3、C4.5、CART深度剖析及源码实现
引言在《决策树学习(上)——深度原理剖析及源码实现》中,我们讨论了决策树的基本原理、所需要掌握的信息论知识,并在文章的最后给出了Java源码实现。在这一节,我们继续讨论基于决策树学习的算法。由于基于决策树的算法比较多且受篇幅限制,本文我们只讨论著名的ID3、C4.5以及CART算法,并在文章最后给出源码实现。ID3与C4.5ID3(Iterative Dichotomiser 3,迭代二叉树3代)...转载 2018-05-14 22:48:32 · 527 阅读 · 0 评论 -
TensorFlow自学之前的bigpicture
一、前言目前,深度学习已经广泛应用于各个领域,比如图像识别,图形定位与检测,语音识别,机器翻译等等,对于这个神奇的领域,很多童鞋想要一探究竟,这里抛砖引玉的简单介绍下最火的深度学习开源框架 tensorflow。本教程不是 cookbook,所以不会将所有的东西都事无巨细的讲到,所有的示例都将使用 python。那么本篇教程会讲到什么?首先是一些基础概念,包括计算图,graph 与 session...转载 2018-05-27 15:31:38 · 222 阅读 · 0 评论 -
TensorFlow入门
Tensorflow入门 前言:前两天接到实习单位的通知,项目要使用Tensorflow框架进行项目开发,故开启一段Tensorflow的学习之旅。 Tensorflow是什么 首先要附上的是TensorFlow的官网:https://www.tensorflow.org/(自己想办法打开)。 TensorFlow™ 是一个使用数据流图进行数值计算的开放源代码软件库。图中的...原创 2018-05-24 09:50:57 · 291 阅读 · 0 评论 -
Ubuntu下快速安装Docker&&快速安装Tensorflow方法
第一步,根据Docker官网安装教程安装Docker;国内安装一般很慢,甚至经常中断导致安装不成功,不急,tips1实测不用一分钟!只要你网速够!快速安装docker第二步,安装tensorflow;这个时候如果直接按照网上的教程来pull,还是很慢很慢的,并且很有可能出现TLS handshake timeout 错误,但是tips2如果换成国内的hub,又可以快到飞起来了。。。设置国内仓库dd...转载 2018-05-29 22:44:15 · 243 阅读 · 0 评论 -
TensorFlow学习笔记1
TensorFlow学习笔记11、TensorFlow:谷歌第二代人工智能学习系统2、TensorFlow顾名思义Tensor+Flow。Tensor的意思是张量,Flow的意思是流动,合起来就是张量流动。用中文解释即:流动中的张量。在TensorFlow这个框架中,张量是在数据图中流动的。也即是说TensorFlow是:张量在数据图中流动。3、TensorFlow框架可以分为三个部分 ① ...原创 2018-05-29 11:00:06 · 283 阅读 · 0 评论 -
TensorFlow学习之常用函数总结:TensorFlow官方例子中的诸如tf.reduce_mean()这类函数
前言tensorflow官网给的例子用到了很多函数,然后并没有具体说明,还要自己去翻文档,有些函数是很常用的,下面来一一总结。正文一,tensorflow中有一类在tensor的某一维度上求值的函数。如:求最大值tf.reduce_max(input_tensor, reduction_indices=None, keep_dims=False, name=None)求平均值tf.reduce_m...转载 2018-06-09 10:35:46 · 242 阅读 · 0 评论 -
机器学习领域概述
机器学习领域概述机器学习主要分为监督学习和非监督学习。监督学习常见的两大类问题为:分类和回归。非监督学习常见的两类问题有:聚类和关联规则挖掘。...原创 2018-05-07 13:31:34 · 452 阅读 · 0 评论 -
【转载】干货|SVM(一)·最全面的感知机总结——太棒了!无论如何都要down下来系列
SVM(一) 感知机感知机是个相当简单的模型,但它既可以发展成支持向量机(通过简单地修改一下损失函数)、又可以发展成神经网络(通过简单地堆叠),所以它也拥有一定的地位。为方便,我们统一讨论二分类问题,并将两个类别的样本分别称为正、负样本1感知机能做什么感知机能(且一定能)将线性可分的数据集分开。什么叫线性可分?在二维平面上、线性可分意味着能用一条线将正负样本分开,在三维空间中、线性可分意味着能用一...转载 2018-05-05 10:14:09 · 334 阅读 · 0 评论 -
估算一个字词重要程度的方法TF-IDF——机器学习
估算一个字词重要程度的方法TF-IDF算法一种过滤掉常见词语,保留重要词语的算法。TF-IDF是一种统计方法(算法),用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。1、字词的重要性随着它在文件中出现次数成正比增加。2、字词的重要性随着它在语料库中出现的频率成反比下降。3、词频 TF:(Term Frequency):给定词在该文件中出现的频率。4、逆向文件频率 IDF(In...原创 2018-03-30 15:10:33 · 1536 阅读 · 0 评论 -
相似性度量——机器学习
相似性度量:给定数值的对象就可以看作一个n 维坐标系下的点,并通过点与点之间的距离来度量。例如:向量v1 = (01, 小明, 男, 175, 北京大学, 软件与微电子学院,软件工程)向量v2 = (02, 小红, 女, 165, 中山大学,医学院,临床医学)个人理解:比较小明和小红的相似度,即对象1和对象2的相似度。可以将其转换为向量v1和向量v2,通过计算其距离,得出相似性。范数向量的范数可...原创 2018-03-24 11:32:50 · 2187 阅读 · 0 评论 -
Apriori算法的python实现——机器学习
原始链接:基于Python的机器学习实战:Apriori原始链接里的代码是在python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。Apriori算法的pyspark实现:pyspark实现Apriori算法、循环迭代、并行处理[python] view plain copy#coding=utf8 #python3.5 ...转载 2018-04-19 22:53:03 · 1124 阅读 · 0 评论 -
通过FP树生成频繁项集算法详解——机器学习
前言在(机器学习(22)之Apriori算法原理总结)中,对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。FP Tree数据结构为了减少I/O次数,FP Tree算法引入了...转载 2018-04-24 23:13:25 · 11871 阅读 · 4 评论 -
k近邻算法(kNN)的基本思想——机器学习、数据挖掘、人工智能基础
k近邻算法(kNN)的基本思想一、算法流程对未知类别属性的数据集中的每个点依次执行以下操作:(1) 计算已知类别数据集中的点与当前点之间的距离;(2) 按照距离递增次序排序;(3) 选取与当前点距离最小的k个点;(4) 确定前k个点所在类别的出现频率;(5) 返回前k个点出现频率最高的类别作为当前点的预测分类。 二、举例说明以下图为例:已知有两类(蓝色正方形、红色三角形),现有待分类样本(绿色圆形...原创 2018-05-02 22:09:13 · 6137 阅读 · 0 评论 -
关联规则的挖掘问题——机器学习
定义:给定事务集合T,找出 支持度≥支持度阈值(minsup) 并且 置信度≥置信度阈值(minconf)的所有规则。产生频繁项集:找出支持度≥支持度阈值的行为。产生关联规则:在上一步产生的频繁项集中提取高置信度的规则(也称:强规则)。如果不懂什么是支持度和置信度的话可以百度一下。关联规则挖掘问题的具体流程图如图1所示。图1 关联规则挖掘流程图代码片1:关联规则挖掘算法的python实...原创 2018-04-25 20:30:53 · 2230 阅读 · 0 评论 -
K近邻算法Python实战——kNN、Python、机器学习
from numpy import *import operatorfrom os import listdirimport matplotlibimport matplotlib.pyplot as plt# 数据集的路径filePath = 'E:\\bigData\\ml\\dataset\\datingTestSet2.txt'# kNN核心算法'''classify...原创 2018-05-03 18:46:27 · 332 阅读 · 0 评论 -
数据挖掘,机器学习,和人工智能的区别是什么?
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比和解释。那我根据以前读的书和论文,还有和与导师之间的交流,尝试着说一说这几者的区别吧,毕竟一个好的定义在未来的学习和交流...转载 2018-05-05 09:51:10 · 14499 阅读 · 0 评论 -
TensorFlow与简单的神经网络的实现
以下所有的代码片都经过测试,可以直接粘贴到开发环境中,建议使用Pycharm。代码片2,3,4中,输入层都由随机函数生成,所以每次运行结果都不相同。代码片1import tensorflow as tf# 指定从输入层到隐藏第一层的权值w1 = tf.constant([[0.2, 0.1, 0.4], [0.3, -0.5, 0.2]])# 指定从隐藏第一层到输出层的权值w2 = t...原创 2018-06-01 20:00:32 · 292 阅读 · 0 评论