2016年01月_茄肥猫

转载流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个拓

2016-01-28 10:40:53 628

转载 Yarn资源分配性能调优

日志：Container [pid=134663,containerID=container_1430287094897_0049_02_067966] is running beyond physical memory limits. Current usage: 1.0 GB of 1 GB physical memory used; 1.5 GB of 10 GB virtual mem

2016-01-28 10:20:04 17284

转载 Hadoop平台架构--存储篇

刚刚开始使用Hadoop集群的时候,目录没有有个规范,大家都根据自己的喜好创建各种不同的目录,权限控制也没有开启,随着应用越来越多，使用的人员也多了起来，导致目录混乱,终于在新规划集群的时候,对目录做了规范和权限控制.下面简单介绍一下我们HDFS目录规范和HDFS存储规划,希望对初建Hadoop集群的同学能有一些帮助。简介Hadoop的目的是基于一种新的方法来存储和处理复杂

2016-01-28 10:18:20 971

转载 Hadoop平台架构--硬件篇

还记得刚接触Hadoop的时候,还是1.x版本,硬是在自己的4GB内存上面弄了3个虚拟机学习,条件有些艰苦,Hadoop测试集群搭建不需要太多考虑,随着毕业开始进入企业,在企业中实践Hadoop,特别是一定规模的集群,逐渐涉及到硬件资源,网络规划,操作系统,软件栈等一系列问题！对于一个没有经验的小白来说,还是比较复杂的,还好公司有linux大牛配合上我从各种技术网站博客吸收的微薄知识，从0

2016-01-28 10:13:01 8800

转载 hadoop、hbase、hive、zookeeper版本对应关系

最新版本：hadoop、hbase、hive、zookeeper版本对应关系续hadoop与HBase版本对应关系:Hbase Hadoop 0.92.0 1.0.00.92.1 1.0.00.92.2 1.0.30.94.0 1.0.20.94.1 1.0.30.94.2 1.0.30.94.3 1.0.40.94

2016-01-27 17:23:06 4364

转载 python模块:win32com用法详解

python模块:win32com用法详解使用技巧import win32comfrom win32com.client import Dispatch, constantsw = win32com.client.Dispatch('Word.Application')# 或者使用下面的方法，使用启动独立的进程：# w = win32com.cli

2016-01-27 11:58:17 9089

转载 Win7下Python操作MySQL步骤

1、检视Python版本如果尚未安装Python，那么你可以到Python官网进行下载：For the MD5 checksums and OpenPGP signatures, look at the detailed Python 3.3.3 page:Python 3.3.3 Windows x86 MSI Install

2016-01-27 10:21:17 719

转载利用Python抓取和解析网页（转载）

这是我写爬虫的时候搜到的一篇比较不错的文章讲的还是比较详细虽然代码有部分缩进错误稍微修改下就可以有很好的效果了于是我就脸皮厚的贴了过来收藏吧算是对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文

2016-01-27 10:12:32 2937 1

转载 Python抓取京东图书评论数据

京东图书评论有非常丰富的信息，这里面就包含了购买日期、书名、作者、好评、中评、差评等等。以购买日期为例，使用Python + Mysql的搭配进行实现，程序不大，才100行。相关的解释我都在程序里加注了：from selenium import webdriverfrom bs4 import BeautifulSoupimport reimport w

2016-01-27 10:10:36 1907

转载 CentOS7安装Hadoop2.7完整流程

总体思路，准备主从服务器，配置主服务器可以无密码SSH登录从服务器，解压安装JDK，解压安装Hadoop，配置hdfs、mapreduce等主从关系。1、环境，3台CentOS7，64位，Hadoop2.7需要64位Linux，CentOS7 Minimal的ISO文件只有600M，操作系统十几分钟就可以安装完成，Master 192.168.0.182Slave1 192.168

2016-01-24 20:53:03 1325 1

转载搭建Hadoop2.7.1的分布式集群

网上教程有很多关于Hadoop配置的，但是每一个教程都对应了一个版本信息，有一些教程也存在很大的问题，配置环境，系统环境都没说清楚。在此我将记录下来从零搭建Hadoop2.7.1的过程，以及搭建过程中所遇到的一些问题。一操作环境说明1.1 ：操作系统： window8.11.2 ：虚拟机版本：VMware12二材料准备2.1 ubuntu-14.

2016-01-22 17:23:36 413

茄肥猫的窝