- 博客(12)
- 资源 (14)
- 问答 (1)
- 收藏
- 关注
转载 Git 版本控制与工作流 - Git入门篇
原文:刘耀柱原文:http://www.jianshu.com/p/67afe711c731#Git Version Control这篇文章是针对git版本控制和工作流的总结,如果有些朋友之前还没使用过git,对git的基本概念和命令不是很熟悉,可以从以下基本教程入手:专为设计师而写的GitHub快
2017-03-31 09:32:35 271
转载 一文读懂机器学习,大数据、自然语言处理、算法全有了……
在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。这篇文档也算是EasyPR开发的番外篇,从这里开始,必须对机器学习了解才能进一步介绍EasyPR的内核。当然,本文也面对一般读者,不会对阅读有相关的前提要求。在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢
2017-03-28 11:46:44 616
转载 RDD 、 DataFrame 和 DataSet 详解
RDD、DataFrame和DataSet的区别RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不
2017-03-27 17:28:22 833
转载 Hadoop YARN的发展史与详细解析
带有 MapReduce 的 Apache Hadoop 是分布式数据处理的骨干力量。借助其独特的横向扩展物理集群架构和由 Google 最初开发的精细处理框架,Hadoop 在大数据处理的全新领域迎来了爆炸式增长。Hadoop 还开发了一个丰富多样的应用程序生态系统,包括 Apache Pig(一种强大的脚本语言)和 Apache Hive(一个具有类似 SQL 界面的数据仓库解决方案)。
2017-03-27 15:04:23 325
转载 HadoopV1 vs HadaoopV2 (Yarn) hadoop新旧框架对比
Hadoop 新 MapReduce 框架 Yarn 详解唐 清原, 咨询顾问简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及改进;并通过 Demo 示例详细描述了在新的 yarn 框架下搭建和开发 hadoop 程序
2017-03-27 14:47:15 851
原创 IntelliJ Idea 常用快捷键
1. -----------自动代码-------- 常用的有fori/sout/psvm+Tab即可生成循环、System.out、main方法等boilerplate样板代码 例如要输入for(User user : users)只需输入user.for+Tab 再比如,要输入Date birthday = user.getBirthday();只需输入user.getBi
2017-03-24 16:42:00 564
原创 解决IntelliJ IDEA下github访问速度的问题(从此告别github速度慢的问题)
访问github速度很慢?下面我以windows为例,给大家一个直接了当的解决办法:进入 C:\Windows\System32\drivers\etc 目录下,找到hosts文件,用文本编辑器打开,在hosts最后两行追加如下两行:192.30.253.113 github.com151.101.112.249 github.global.ssl.fastly.net然后更新一
2017-03-22 14:34:13 10271 3
转载 对于REST中无状态(stateless)的一点认识
在请求中传递SessionID被普遍认为是unRESTful的,而将用户的credentials包含在每个请求里又是一种非常RESTful的做法。这样一个问题经常会造成困扰。本文就REST的一些概念进行了探讨,解释了REST架构中的状态,无状态(stateless),以及两种状态的区别今天早上在Yahoo的邮件列表里看到一篇颇有意思的讨论,标题为REST
2017-03-22 11:38:32 536
翻译 Spark 中的RDD是什么东东?为什么需要它?
原文链接:https://dzone.com/articles/what-is-rdd-in-spark-and-why-do-we-need-itSpark 中的RDD是个什么东东,我们为什么需要它?就快速执行诸如机器学习这样的迭代处理算法而言,Apache Spark 已经在通常情况下赶超了Hadoop(MapReduce),因为它提供了非常
2017-03-21 10:05:41 928
转载 Spark RDD API详解 Map和Reduce
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S
2017-03-21 09:46:22 1585
转载 RDD原理与详解
RDD详解RDD(Resilient Distributed Datasets弹性分布式数据集),是spark中最重要的概念,可以简单的把RDD理解成一个提供了许多操作接口的数据集合,和一般数据集不同的是,其实际数据分布存储于一批机器中(内存或磁盘中)。当然,RDD肯定不会这么简单,它的功能还包括容错、集合内的数据可以并行处理等。图1是RDD类的视图。图1一个简单的
2017-03-21 09:41:15 499
10个JavaScript相关DatePicker库
2017-12-18
ocrad.js (js版ocr)
2017-09-21
Angular4最简工程
2017-09-10
不理解 .aiml 文件和csv文件各自的用处
2017-12-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人