关闭
当前搜索:

Ganglia环境搭建并监控Hadoop分布式集群

Ganglia环境搭建并监控Hadoop分布式集群         简介 Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。       环境搭建流程   1、我们先在主机master01上面搭建好Ganglia环境 2、在master01主机上解...
阅读(3612) 评论(0)

Python字符串操作汇总

Python字符串操作汇总         字符串操作 复制字符串 sStr1 = 'Alice' sStr2 = sStr1 print sStr2 #打印结果 :Alice 连接字符串 sStr1 = 'Alice' sStr2 = ' Bob' sStr1 += sStr2 print sStr1 #打印结果 :Alice Bob 查找字符串 ...
阅读(1505) 评论(1)

爬虫程序定时执行和监控示例

爬虫程序定时执行和监控示例         简介 我们的爬虫程序在执行过程中,可能需要满足以下条件: 1、可以每天定时执行,爬取指定电商等网站内容。 2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。   下面我们来介绍如何实现这两个功能。   注意: 这里我们主要演示定时执行和监控功能,所以爬虫程序只是伪代码。如果想要详细了解如何实现网络爬虫,可以参考如...
阅读(9709) 评论(1)

Zookeeper分布式安装配置

Zookeeper分布式安装配置       Zookeeper介绍 概述 1、ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。 2、ZooKeeper的目标就是封装好复杂易出...
阅读(4794) 评论(0)

Redis主从复制和集群配置

Redis主从复制和集群配置         redis主从复制 概述 1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并接收主数据库同步过来的数据,一个主数据库可以有多个从数据库,而一个从数据库只能有一个主数据库。 2、...
阅读(32080) 评论(5)

Redis高级特性及应用场景

Redis高级特性及应用场景         redis中键的生存时间(expire) redis中可以使用expire命令设置一个键的生存时间,到时间后redis会自动删除它。 过期时间可以设置为秒或者毫秒精度。过期时间分辨率总是 1 毫秒。过期信息被复制和持久化到磁盘,当 Redis 停止时时间仍然在计算 (也就是说 Redis 保存了过期时间)。   expir...
阅读(16999) 评论(6)

爬取京东本周热卖商品所有用户评价存入MySQL

爬取京东本周热卖商品所有用户评价存入MySQL       说明 本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家可以直接去看上一个项目中的介绍。爬取京东本周热卖商品基本信息存入MySQL的链接:http://blog.csdn.net/u011204847/article/details/51...
阅读(8667) 评论(1)

爬取京东本周热卖商品基本信息存入MySQL

爬取京东本周热卖商品基本信息存入MySQL         网络爬虫介绍 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。     产生背景 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息...
阅读(9820) 评论(3)

Redis安装及使用

Redis安装及使用       Redis简介: 概述 1、Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。官网:http://redis.io/   2、redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、l...
阅读(6923) 评论(1)

Spark 数据ETL

Spark 数据ETL         说明 1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。 2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。 3、大家如果有看不懂的地方可以参考原书(网上可以搜到)。       数据处理以及转化 1、...
阅读(10005) 评论(0)

PySpark处理数据并图表分析

PySpark处理数据并图表分析         PySpark简介 官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现python与java的互操作,从而实现使用python编写Spark程序。Spark也同样提供了pyspark...
阅读(10095) 评论(0)

Awk使用及网站日志分析

Awk使用及网站日志分析         Awk简介 概述 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。awk程序的报告生成能力...
阅读(9658) 评论(0)

Shell编程详解

Shell编程详解       Shell简介   概述 Shell是一种具备特殊功能的程序,它提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令,并把它送入内核去执行。内核是Linux系统的心脏,从开机自检就驻留在计算机的内存中,直到计算机关闭为止,而用户的应用程序存储在计算机的硬盘上,仅当需要时才被调入内存。Shell是一种应用程序,当用户登录Linux系统时,Shel...
阅读(15275) 评论(2)

Java正则表达式

Java正则表达式         正则表达式简介 概述 正则表达式定义了字符串的模式,可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。Java的正则表达式和Perl的是最为相似的。   特点 正则表达式的特点是: 灵活性、逻辑性和功能性非常的强;可以迅速地用极简单的方式达到字符串的复杂控制。 可读性比较差。 ...
阅读(4547) 评论(1)

Java网络详解

Java网络详解       Java网络基本概念 网络基础知识   1、计算机网络形式多样,内容繁杂。网络上的计算机要互相通信,必须遵循一定的协议。目前使用最广泛的网络协议是Internet上所使用的TCP/IP协议   2、网络编程的目的就是指直接或间接地通过网络协议与其他计算机进行通讯。网络编程中有两个主要的问题,一个是如何准确的定位网络上一台或多台主机,另一个就是找到...
阅读(4704) 评论(0)
40条 共3页1 2 3 下一页 尾页
    个人资料
    • 访问:213888次
    • 积分:2209
    • 等级:
    • 排名:第19163名
    • 原创:39篇
    • 转载:0篇
    • 译文:1篇
    • 评论:25条
    友情链接
    Follow Me On
    文章分类
    文章存档
    最新评论