自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 ML-0101-梯度下降小结

基本概念梯度梯度下降梯度下降的相关概念梯度下降算法算法过程梯度下降的各种变体BGDSGDMBGD批量梯度下降Batch gradient descent随机梯度下降Stochastic gradient descent小批量梯度下降Mini-batch gradient descent梯度下降的算法调优梯度下降法和其他无约束优化算法的比较无约束优化算法无约束优化算法的比较

2017-10-25 08:48:47 1024

原创 ML之02-TF-IDF算法原理及其应用

TF-IDF算法TF-IDF介绍TF-IDF算法步骤TF-IDF算法实现TF-IDF算法本身和实现过程中可能的影响因素TF-IDF应用场景TF-IDF算法应用示例余弦相似性cosine similiarityReference如何借助计算机提取文章的关键词(Automatic Keyphrase extraction),或比较两篇文章的相似度?TF-IDF算法 余弦相似性(c

2017-06-20 08:26:08 1148

原创 SparkMLlib之02-Pipeline介绍及其应用

Pipeline中的主要概念Pipeline组件TransformersEstimatorsParameters保存和加载PipelinePipeline应用Example1Example2一个典型的机器学习机器学习过程通常会包含:源数据 ETL,数据预处理,指标提取,模型训练与交叉验证,新数据预测等。我们可以看到这是一个包含多个步骤的流水线式工作,也就是说数据从收集开始,要经历多

2017-06-20 08:17:48 728

原创 SparkMLlib之01-Spark机器学习库介绍

Spark机器学习库简介MLlib是Spark的机器学习库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。它提供如下工具:机器学习算法:常规机器学习算法包括分类、回归、聚类和协同过滤。特征工程:特征提取、特征转换、特征选择以及降维。管道:构造、评估和调整的管道的

2017-05-07 20:36:02 749

原创 ML之01-核密度估计Kernel Density Estimation(KDE)

由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。

2017-05-07 17:05:09 5114

原创 快学scala笔记之02-类

5.1 简单类和无参方法Class Counter {private var value = 0 // 必须初始化字段def increment() { value += 1 } // 方法默认是公有的改值器def current() = value //取值器// def current = value}val myCounter = new Coun

2017-04-20 08:57:27 255

原创 利用alias自定义快捷命令

身为开发人员,不可避免地经常需要进入几个常用的目录进行开发,如果目录太深,经常敲一串路径(例如: cd /path/to/my/work/directiron),着实麻烦。可利用alias自定义一些快捷命令。用windows系统在本地开发的研发,Cygwin和Git Bash这两个辅助软件估计必不可少。对于经常需要切换到工作目录,可以按以下方式设置快捷命令。Cy

2017-04-20 08:35:59 6528 1

原创 快学scala笔记之01-数据类型

快学scala笔记之01-数据类型

2017-04-15 19:19:36 257

原创 Impala之04-Impala 如何使用 Hadoop 文件格式【译】

原文:https://www.cloudera.com/documentation/enterprise/5-7-x/topics/impala_file_formats.htmlImpala 支持几种熟悉的 Apache Hadoop 中使用的文件格式。Impala 可以加载或查询其他 Hadoop 组件如 Pig 或 MapReduce 产生的数据文件,并且 Impala 产生的数

2017-04-09 16:05:16 1651

原创 Impala之03-原理、架构分析(2)

上一篇文章《Impala之02-原理、架构分析(1)》介绍了MPP相关背景知识,本文将深入分析Impala系统架构、原理。下图展示了Impala的系统架构和查询的执行流程。从图中可以看出,Impala自身包含三个模块:Impalad、Statestore和Catalog,并提供CLI(impala shell)、ODBC、JDBC数据访问接口,除此之外它还依赖Hive Metastor

2017-04-09 16:01:12 1650

原创 数据库中DQL、DML、DDL、DCL的概念与区别

SQL(Structure Query Language)语言是数据库的核心语言。SQL语言共分为四大类:数据定义语言DDL,数据操纵语言DML,数据查询语言DQL,数据控制语言DCL。1. 数据定义语言DDL数据定义语言DDL用来创建数据库中的各种对象-----表、视图、索引、同义词、聚簇等如:CREATE TABLE/VIEW/INDEX/SYN/CLUSTER

2017-04-08 11:48:59 38185

原创 Impala之02-原理、架构分析(1)

Apache Impala是由Cloudera开发并开源的一款基于HDFS/Hbase的MPP SQL引擎,是Google Dremel的开源实现。在分析Impala架构、原理之前,先介绍一下相关背景知识。一、SMP、NUMA、MPP体系结构介绍从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构 (SMP : Symmetric Multi-Proce

2017-04-08 11:39:22 704

原创 Impala之01-基本介绍

Impala是Cloudera公司主导开发的新型查询系统,是Google Dremel的开源实现。它提供SQL语义,能够查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但是由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性;相比之下,Impala的最大特点也是最大卖点就是它的快速。设计目

2017-03-30 23:34:07 646

原创 02-深度学习中的Data Augmentation方法

02-深度学习中的Data Augmentation方法在深度学习中,为了避免出现过拟合(Overfitting),通常我们需要输入充足的数据量。当数据量不够大时候,常常采用以下几种方法:Data Augmentation:通过平移、 翻转、加噪声等方法从已有数据中创造出一批“新”的数据,人工增加训练集的大小。Regularization:数据量比较小会导致模型过拟合, 使得训练误差很小而测试误

2017-02-23 09:10:15 5262

原创 03-Keras之用MNIST数据集训练一个CNN

03-Keras之用MNIST数据集训练一个CNN模型code# -*- coding: utf-8 -*-'''Trains a simple convnet on the MNIST dataset.Gets to 99.25% test accuracy after 12 epochs(there is still a lot of margin for parameter tuning).

2017-02-19 18:31:44 1411

原创 02-Keras之网络层思维导图

更多文章欢迎关注微信公众号:大数据学苑(Bigdata-Eden)

2017-02-19 17:45:40 1306 2

原创 01-Keras之用MNIST数据集训练一个DNN

01-Keras之用MNIST数据集训练一个DNN 模型code# -*- coding: utf-8 -*-'''Trains a simple deep NN on the MNIST dataset.Gets to 98.40% test accuracy after 20 epochs(there is *a lot* of margin for parameter tuning).2

2017-02-19 16:33:45 6127 1

原创 00-Keras之入门介绍

00-Keras之入门介绍Keras是一个高层神经网络库,Keras由纯Python编写而成并基于Tensorflow或Theano。Keras 为支持快速实验而生,能够把你的idea迅速转换为结果。Keras特点简易和快速的原型设计(keras具有高度模块化,极简,和可扩充特性)支持CNN和RNN,或二者的结合支持任意的链接方案(包括多输入和多输出训练)无缝CPU和GPU切换Keras设

2017-02-19 11:22:56 655

原创 有道云笔记markdow模式如何插入本地图片

有道云笔记markdow模式如何插入本地图片![image](图片链接),将图片链接替换为待插入图片的绝对路径右键本地图片,打开“属性”页面;转到“安全”选项,在这里,我们将会看到“对象名称”,copy +c 复制图片的地址,如![image](E:\00-Inbox\A06-1.jpg),即可看到插入的图片经测试,改变本地图片路径后,markdown文件中引用的图片可正常显示。改变markd

2017-01-21 12:11:32 7013 4

原创 工作中linux常用命令

hostname  查看本机主机名linux主机名hostname设置

2015-09-07 18:37:29 224

Spark高级数据分析 源代码 里扎 (Sandy Ryza)、 Uri Laserson

由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用 Spark 收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

2016-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除