- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 Ganglia环境搭建并监控Hadoop分布式集群
Ganglia环境搭建并监控Hadoop分布式集群 简介Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。 环境搭建流程 1、我们先在主机master01上面搭建好Ganglia环境2、在master01主机上解
2016-05-09 19:51:38 6424 1
原创 Python字符串操作汇总
Python字符串操作汇总 字符串操作复制字符串sStr1 = 'Alice'sStr2 = sStr1print sStr2 #打印结果 :Alice连接字符串sStr1 = 'Alice'sStr2 = ' Bob'sStr1 += sStr2print sStr1 #打印结果 :Alice Bob查找字符串
2016-05-07 18:53:49 2778 1
原创 爬虫程序定时执行和监控示例
爬虫程序定时执行和监控示例 简介我们的爬虫程序在执行过程中,可能需要满足以下条件:1、可以每天定时执行,爬取指定电商等网站内容。2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。 下面我们来介绍如何实现这两个功能。 注意:这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如
2016-05-06 19:23:20 24439 3
原创 Zookeeper分布式安装配置
Zookeeper分布式安装配置 Zookeeper介绍概述1、ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。2、ZooKeeper的目标就是封装好复杂易出
2016-05-06 00:05:46 7049
原创 Redis主从复制和集群配置
Redis主从复制和集群配置 redis主从复制概述1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并接收主数据库同步过来的数据,一个主数据库可以有多个从数据库,而一个从数据库只能有一个主数据库。2、
2016-05-03 19:58:30 67237 9
原创 Redis高级特性及应用场景
Redis高级特性及应用场景 redis中键的生存时间(expire)redis中可以使用expire命令设置一个键的生存时间,到时间后redis会自动删除它。过期时间可以设置为秒或者毫秒精度。过期时间分辨率总是 1 毫秒。过期信息被复制和持久化到磁盘,当 Redis 停止时时间仍然在计算 (也就是说 Redis 保存了过期时间)。 expir
2016-05-03 10:50:23 33943 8
原创 爬取京东本周热卖商品所有用户评价存入MySQL
爬取京东本周热卖商品所有用户评价存入MySQL 说明本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家可以直接去看上一个项目中的介绍。爬取京东本周热卖商品基本信息存入MySQL的链接:http://blog.csdn.net/u011204847/article/details/51
2016-05-02 01:50:06 11161 1
原创 爬取京东本周热卖商品基本信息存入MySQL
爬取京东本周热卖商品基本信息存入MySQL 网络爬虫介绍概述网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 产生背景随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息
2016-05-02 01:13:38 13988 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人