- 博客(20)
- 资源 (1)
- 收藏
- 关注
原创 ML-0101-梯度下降小结
基本概念梯度梯度下降梯度下降的相关概念梯度下降算法算法过程梯度下降的各种变体BGDSGDMBGD批量梯度下降Batch gradient descent随机梯度下降Stochastic gradient descent小批量梯度下降Mini-batch gradient descent梯度下降的算法调优梯度下降法和其他无约束优化算法的比较无约束优化算法无约束优化算法的比较
2017-10-25 08:48:47
1024
原创 ML之02-TF-IDF算法原理及其应用
TF-IDF算法TF-IDF介绍TF-IDF算法步骤TF-IDF算法实现TF-IDF算法本身和实现过程中可能的影响因素TF-IDF应用场景TF-IDF算法应用示例余弦相似性cosine similiarityReference如何借助计算机提取文章的关键词(Automatic Keyphrase extraction),或比较两篇文章的相似度?TF-IDF算法 余弦相似性(c
2017-06-20 08:26:08
1148
原创 SparkMLlib之02-Pipeline介绍及其应用
Pipeline中的主要概念Pipeline组件TransformersEstimatorsParameters保存和加载PipelinePipeline应用Example1Example2一个典型的机器学习机器学习过程通常会包含:源数据 ETL,数据预处理,指标提取,模型训练与交叉验证,新数据预测等。我们可以看到这是一个包含多个步骤的流水线式工作,也就是说数据从收集开始,要经历多
2017-06-20 08:17:48
728
原创 SparkMLlib之01-Spark机器学习库介绍
Spark机器学习库简介MLlib是Spark的机器学习库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。它提供如下工具:机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。特征工程:特征提取、特征转换、特征选择以及降维。管道:构造、评估和调整的管道的
2017-05-07 20:36:02
749
原创 ML之01-核密度估计Kernel Density Estimation(KDE)
由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。
2017-05-07 17:05:09
5114
原创 快学scala笔记之02-类
5.1 简单类和无参方法Class Counter {private var value = 0 // 必须初始化字段def increment() { value += 1 } // 方法默认是公有的改值器def current() = value //取值器// def current = value}val myCounter = new Coun
2017-04-20 08:57:27
255
原创 利用alias自定义快捷命令
身为开发人员,不可避免地经常需要进入几个常用的目录进行开发,如果目录太深,经常敲一串路径(例如: cd /path/to/my/work/directiron),着实麻烦。可利用alias自定义一些快捷命令。用windows系统在本地开发的研发,Cygwin和Git Bash这两个辅助软件估计必不可少。对于经常需要切换到工作目录,可以按以下方式设置快捷命令。Cy
2017-04-20 08:35:59
6528
1
原创 Impala之04-Impala 如何使用 Hadoop 文件格式【译】
原文:https://www.cloudera.com/documentation/enterprise/5-7-x/topics/impala_file_formats.htmlImpala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的数
2017-04-09 16:05:16
1651
原创 Impala之03-原理、架构分析(2)
上一篇文章《Impala之02-原理、架构分析(1)》介绍了MPP相关背景知识,本文将深入分析Impala系统架构、原理。下图展示了Impala的系统架构和查询的执行流程。从图中可以看出,Impala自身包含三个模块:Impalad、Statestore和Catalog,并提供CLI(impala shell)、ODBC、JDBC数据访问接口,除此之外它还依赖Hive Metastor
2017-04-09 16:01:12
1650
原创 数据库中DQL、DML、DDL、DCL的概念与区别
SQL(Structure Query Language)语言是数据库的核心语言。SQL语言共分为四大类:数据定义语言DDL,数据操纵语言DML,数据查询语言DQL,数据控制语言DCL。1. 数据定义语言DDL数据定义语言DDL用来创建数据库中的各种对象-----表、视图、索引、同义词、聚簇等如:CREATE TABLE/VIEW/INDEX/SYN/CLUSTER
2017-04-08 11:48:59
38185
原创 Impala之02-原理、架构分析(1)
Apache Impala是由Cloudera开发并开源的一款基于HDFS/Hbase的MPP SQL引擎,是Google Dremel的开源实现。在分析Impala架构、原理之前,先介绍一下相关背景知识。一、SMP、NUMA、MPP体系结构介绍从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Proce
2017-04-08 11:39:22
704
原创 Impala之01-基本介绍
Impala是Cloudera公司主导开发的新型查询系统,是Google Dremel的开源实现。它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性;相比之下,Impala的最大特点也是最大卖点就是它的快速。设计目
2017-03-30 23:34:07
646
原创 02-深度学习中的Data Augmentation方法
02-深度学习中的Data Augmentation方法在深度学习中,为了避免出现过拟合(Overfitting),通常我们需要输入充足的数据量。当数据量不够大时候,常常采用以下几种方法:Data Augmentation:通过平移、 翻转、加噪声等方法从已有数据中创造出一批“新”的数据,人工增加训练集的大小。Regularization:数据量比较小会导致模型过拟合, 使得训练误差很小而测试误
2017-02-23 09:10:15
5262
原创 03-Keras之用MNIST数据集训练一个CNN
03-Keras之用MNIST数据集训练一个CNN模型code# -*- coding: utf-8 -*-'''Trains a simple convnet on the MNIST dataset.Gets to 99.25% test accuracy after 12 epochs(there is still a lot of margin for parameter tuning).
2017-02-19 18:31:44
1411
原创 01-Keras之用MNIST数据集训练一个DNN
01-Keras之用MNIST数据集训练一个DNN 模型code# -*- coding: utf-8 -*-'''Trains a simple deep NN on the MNIST dataset.Gets to 98.40% test accuracy after 20 epochs(there is *a lot* of margin for parameter tuning).2
2017-02-19 16:33:45
6127
1
原创 00-Keras之入门介绍
00-Keras之入门介绍Keras是一个高层神经网络库,Keras由纯Python编写而成并基于Tensorflow或Theano。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果。Keras特点简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合支持任意的链接方案(包括多输入和多输出训练)无缝CPU和GPU切换Keras设
2017-02-19 11:22:56
655
原创 有道云笔记markdow模式如何插入本地图片
有道云笔记markdow模式如何插入本地图片![image](图片链接),将图片链接替换为待插入图片的绝对路径右键本地图片,打开“属性”页面;转到“安全”选项,在这里,我们将会看到“对象名称”,copy +c 复制图片的地址,如![image](E:\00-Inbox\A06-1.jpg),即可看到插入的图片经测试,改变本地图片路径后,markdown文件中引用的图片可正常显示。改变markd
2017-01-21 12:11:32
7013
4
Spark高级数据分析 源代码 里扎 (Sandy Ryza)、 Uri Laserson
2016-01-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人