数据池塘

知乎专栏「数据池塘」:https://zhuanlan.zhihu.com/datapool

Hadoop 的核心(2)—— MapReduce & YARN

MapReduce 简介 MapReduce 是一种编程模型,是一种编程方法,是抽象的理论。 YARN 概念 YARN 是 Hadoop 2.0 版本以后的资源管理器,即 MapReduce 2.0,相比于 1.0 版本,架构中的各个模块分工明确,在性能和稳定性上都有所提升。YA...

2018-01-31 05:41:49

阅读数 103

评论数 0

基于 PSO 算法解决 TSP 项目

PSO (Particle Swarm Optimization) 算法即粒子群优化算法,源于对鸟群捕食行为的学习。基本思想是:个体获取的局部信息提供给群体,群体根据所有局部信息获得一个动态的全局最优解,每个个体再根据这个全局最优解调整自身的局部最优解,这个过程进行迭代,直到达到终止条件。 TS...

2018-01-27 02:36:15

阅读数 1421

评论数 0

记一次京东数据产品经理面试

职位详情 1. 数学,统计学相关专业优先;硕士以上优先; 2. 熟悉零售行业,有自己的“业务分析方法”和“独立的视角”; 3. 能够从数据中还原业务场景,拥有较强的解释力; 4. 数据建模 能力 职责 1. “无人超市”数据运营支撑:用数据指导选址,营销,选品,定价,货品排面; 2...

2018-01-25 03:46:58

阅读数 12159

评论数 1

Mac OS X 上搭建 Hadoop 开发环境指南

Hadoop 的配置有些麻烦,目前没有一键配置的功能,虽然当时我在安装过程中也参考了有关教程,但还是遇到了很多坑,一些老版本的安装过程已不适用于 hadoop2.x,下面就介绍一下具体步骤。 安装 Java 因为之后使用 Hadoop 需要运行 jar 包,所以 Java 环境是必须的,这里不...

2018-01-20 10:52:09

阅读数 1813

评论数 1

Hadoop 的核心(1)—— HDFS

首先来看看Hadoop 是什么?Hadoop 是一个开源的大数据框架Hadoop是一个分布式计算的解决方案Hadoop = HDFS(分布式文件系统)+ MapReduce(分布式计算)Hadoop 的两个核心:HDFS 分布式文件系统:存储是大数据技术的基础MapReduce 编程模型:分布式计...

2018-01-18 02:12:51

阅读数 429

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭