机器学习
文章平均质量分 91
ZhaoYingChao88
学而不思则罔,思而不学则殆!
展开
-
Spark ML特征提取、转换和选择操作详解
一、特征的提取1、TF-IDF(词频-逆向文档频率) TF(词频):HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器(Transformer),它可以将这些集合转换成固定长度的特征向量。HashingTF利用hashingtrick,原始特征通过应用哈希函数映射到索引中。然后根据映射的索引计算词频。这种方法避免了计算全局特征词对索引映射的需要,这对于大型语料库来说可能是昂贵的,但是它具有潜在的哈希冲突,其中不同的原始特征可...原创 2021-02-19 16:45:45 · 1813 阅读 · 0 评论 -
Spark MLlib 官方指南手册中文版
Spark机器学习库(MLlib)指南 MLlib是Spark里的机器学习库。它的目标是使实用的机器学习算法可扩展并容易使用。它提供如下工具: 1.机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。 2.特征工程:特征提取、特征转换、特征选择以及降维。 3.管道:构造、评估和调整的管道的工具。 4.存储:保存和加载算法、模型及管道 5.实用工具:线性代数,统计,数据处理等。 *注意:主...转载 2021-02-19 15:49:30 · 1718 阅读 · 0 评论 -
机器学习常见算法分类
1 机器学习概念1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义:“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 “机器学习是对能通过经验自动改进的计算机算法的研究”。 “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class转载 2021-02-03 20:09:21 · 7793 阅读 · 0 评论 -
kubeflow简介及安装
1 背景Kubernetes 本来是一个用来管理无状态应用的容器平台,但是在近两年,有越来越多的公司用它来运行各种各样的工作负载,尤其是机器学习炼丹。各种 AI 公司或者互联网公司的 AI 部门都会尝试在 Kubernetes 上运行 TensorFlow,Caffe,MXNet 等等分布式学习的任务,这为 Kubernetes 带来了新的挑战。首先,分布式的机器学习任务一般会涉及参数服务...原创 2020-03-05 15:15:52 · 7200 阅读 · 0 评论 -
机器学习:数据预处理之独热编码(One-Hot)详解
一. 什么是独热编码?————————————————————————————————————————在机器学习算法中,我们经常会遇到分类特征,例如:人的性别有男女,祖国有中国,美国,法国等。这些特征值并不是连续的,而是离散的,无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢?例子如下: 性别特征:["男","女"] 祖国特征:["中国","美国,"法国"...原创 2020-01-03 14:18:14 · 62769 阅读 · 8 评论 -
机器学习基础:word2vec详解
独热编码独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样本有三个特征(列),如图:我们的feature_1有两种可能的取值,比如是男/女,这里男用1表示,女用2表示。feature_2 和feature_3各有4种取值...转载 2020-01-03 14:03:59 · 1101 阅读 · 0 评论 -
word2vec 中的数学原理详解
出处:http://blog.csdn.net/itplus/article/details/37969519推荐相关文章:https://blog.csdn.net/lanyu_01/article/details/80097350https://zhuanlan.zhihu.com/p/26306795http://www.5...转载 2020-01-03 11:48:12 · 481 阅读 · 0 评论 -
机器学习基础:ROC曲线与AUC计算详解
AUC & ROCAUC是一个模型评价指标,只能用于二分类模型的评价,对于二分类模型,还有损失函数(logloss),正确率(accuracy),准确率(precision),但相比之下AUC和logloss要比accuracy和precision用的多,原因是因为很多的机器学习模型计算结果都是概率的形式,那么对于概率而言,我们就需要去设定一个阈值来判定分类,那么这个阈值的设定就会对我...原创 2019-12-29 17:48:13 · 5992 阅读 · 1 评论 -
Jupyter精选资源合集
https://github.com/markusschanta/awesome-jupyterGitHub上出现了一份相关的资源,精选收录了关于Jupyter的各种项目、库、教程、拓展应用等资源,一共100多个,横跨11大类别,目前已经400多星。这份资源中的11大类别,分别是:运行时间/前端这一类别中,一共有11份资源,包含Jupyter在运行和前端方面需要的各种资源。...原创 2019-01-18 12:51:26 · 1257 阅读 · 0 评论 -
TensorFlow 基础准备指导
TensorFlow 走上 AI 之路,你要具备以下基础:一、 掌握基本的 Python 编程语法1. 变量、函数、模块2. 字符串及其操作3. 列表与元组4. 条件、循环等控制流5. 面向对象与类推荐书籍:二、必备数学基础1. 线性代数推荐课程:《麻省理工公开课:线性代数》推荐书籍:2. 统计学推荐书籍:三、基础 AI 理论知识Tenso...原创 2019-01-17 22:07:23 · 1287 阅读 · 1 评论 -
机器学习/深度学习资料(持续更新)
机器学习/深度学习资料(持续更新)这篇博文,收集一些机器学习/深度学习的资料,以及学习路径。学习资料基础学习高等数学:https://zhuanlan.zhihu.com/matongxue线性代数:https://www.matongxue.com/#/topics/763机器学习 Machine Learning (Coursera),免费,【可能需翻墙】: 介...原创 2018-08-01 19:41:51 · 637 阅读 · 0 评论 -
交叉熵简单理解
链接:https://www.zhihu.com/question/41252833/answer/195901726讨论这个问题需要从香农的信息熵开始。小明在学校玩王者荣耀被发现了,爸爸被叫去开家长会,心里悲屈的很,就想法子惩罚小明。到家后,爸爸跟小明说:既然你犯错了,就要接受惩罚,但惩罚的程度就看你聪不聪明了。这样吧,我们俩玩猜球游戏,我拿一个球,你猜球的颜色,你每猜一次,不管对错,你就一个星...原创 2018-07-10 09:28:21 · 1140 阅读 · 0 评论 -
Bit-map压缩及使用
Bit-map空间压缩和快速排序去重1. Bit-map的基本思想 32位机器上,对于一个整型数,比如int a=1 在内存中占32bit位,这是为了方便计算机的运算。但是对于某些应用场景而言,这属于一种巨大的浪费,因为我们可以用对应的32bit位对应存储十进制的0-31个数,而这就是Bit-map的基本思想。Bit-map算法利用这种思想处理大量数据的排序、查询以及去重。 Bitmap在用户...原创 2018-06-21 09:27:33 · 1302 阅读 · 0 评论 -
机器学习分类简单介绍
一,从机器学习问题角度分类我们先从机器学习问题本身分类的角度来看,我们可以分成下列类型的算法。监督学习机器学习中有一大部分的问题属于监督学习的范畴,简单口语化地说明,这类问题中,给定的训练样本中,每个样本的输入x都对应一个确定的结果y,我们需要训练出一个模型(数学上看是一个x→y的映射关系f),在未知的样本x′给定后,我们能对结果y′做出预测。这里的预测结果如果是离散值(很多时候是类别类型,比如邮...原创 2018-05-04 15:09:46 · 1732 阅读 · 0 评论 -
机器学习与深度学习资料
机器学习与深度学习资料机器学习《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这原创 2017-10-21 19:17:58 · 3907 阅读 · 0 评论 -
Python科学计算基础篇
关于NumpyNumpy是Python的一个矩阵类型,提供大量矩阵处理函数,内部通过C实现。包含两种数据结构,数组array和矩阵matrix,其实就是array而已构建数组array通过tuple构建arrayIn[1]: from numpy import *In[2]: yuanzu = (4,5,6)In[3]: ll = array(yuanzu)In[4]:原创 2018-01-24 10:21:56 · 4888 阅读 · 0 评论 -
Tensorflow学习笔记:机器学习必备API
前一节介绍了一些最基本的概念和使用方法。因为我个人的最终目的还是在深度学习上,所以一些深度学习和机器学习模块是必须要了解的,这其中包括了tf.train 、tf.contrib.learn、还有如训练神经网络必备的tf.nn等API。这里准备把常用的API和使用方法按照使用频次进行一个排列,可以当做一个以后使用参考。这一节介绍的内容可以有选择的看。而且最全的信息都在TensorFlow的API里原创 2018-01-25 20:10:50 · 926 阅读 · 0 评论 -
深度学习框架比较(Caffe, TensorFlow, MXNet, Torch, Theano)
在这里,我将会介绍当前比较主流的5种深度学习框架,包括 Caffe, TensorFlow, MXNet, Torch, Theano,并对这些框架进行分析。首先对这些框架进行总览。库名称开发语言速度灵活性文档适合模型平台上手难易Caffe原创 2018-01-25 20:19:43 · 15351 阅读 · 0 评论 -
TensorFlow 官方文档中文版
http://bigdata.rzaixian.com/tensorflowzh/https://github.com/jikexueyuanwiki/tensorflow-zhTensorFlow 官方文档中文版R语言在线大数据文档集合View on GitHub起步介绍下载及安装基本用法原创 2018-01-25 20:16:19 · 690 阅读 · 0 评论 -
《深度学习原理与TensorFlow实践》学习笔记
作者 | 王清目录图像识别的经典课题计算机视觉图像识别课题卷积神经网络原理前深度学习时代卷积操作Convolution池化PoolingReLURectified Linear Units多层卷积Dropout经典模型介绍及原创 2018-01-25 20:32:02 · 1342 阅读 · 0 评论 -
TensorFlow 基础
使用TensorFlow,你必须明白TensorFlow:使用图(graph)来表示任务被称之为会话(Session)的上下文(context)中执行图使用tensor表示数据通过变量(Variable)维护状态使用feed和fetch可以为任意操作(arbitrary operation)赋值或者从其中获取数据综述TensorFlow是一个编程系统,使用图来表示计算任原创 2018-01-25 20:37:11 · 531 阅读 · 0 评论 -
分布式系统领域经典论文翻译集
分布式领域论文译序sql&nosql年代记SMAQ:海量数据的存储计算和查询一.google论文系列1. google系列论文译序2. The anatomy of a large-scale hypertextual Web search engine (译 zz)3. web search for a planet :the google cluster arch原创 2018-01-18 16:44:11 · 1342 阅读 · 1 评论 -
TensorFlow 基本使用
一、 TensorFlow是什么?是谷歌开源的机器学习实现框架,本文从Python语言来理解学习Tensorflow以及机器学习的知识。TensorFlow的API主要分两个层次,核心层和基于核心层的高级API。核心层面向机器学习的研究人员,以及对模型控制精细的相关人员。高级API使用和学习相对容易,简化重复性任务,使不同的用户之间保持一致性。高级API,如tf.con原创 2018-02-05 18:08:16 · 752 阅读 · 1 评论 -
机器学习与深度学习资料整理
《Brief History of Machine Learning》介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士人工智能实验室Jurgen Schmidhuber写的最新版本《神经网络与深度学...原创 2018-03-01 17:43:49 · 5015 阅读 · 0 评论 -
Octave简单使用
1.Octave简介Octave是一个和MATLAB十分类似的软件,相比MATLAB而言,Octave的优点在于开源免费,体积相对很小。而且两者的语法相差也很小,一个能在其中一个软件上运行的程序稍作修改就能够运行于另一个软件之上。下面记录一些Octave常用的语句和指令。2.常用语句指令2.1四则运算利用Octave进行四则运算比较基础,和常见的科学计算器用法类似。122.2逻辑运算 "1 =...原创 2018-04-24 10:14:24 · 3201 阅读 · 0 评论 -
看懂机器学习十大常用算法
原文出处: 不会停的蜗牛 通过本篇文章可以对ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题。每个算法都看了好几个视频,挑出讲的最清晰明了有趣的,便于科普。以后有时间再对单个算法做深入地解析。今天的算法如下:决策树随机森林算法逻辑回归SVM朴素贝叶斯K最近邻算法K均值原创 2017-05-06 16:04:31 · 896 阅读 · 0 评论