Tao_cuichen的博客

知识的路上,愿与伙伴们共勉 ^_^

排序:
默认
按更新时间
按访问量

Ganglia环境搭建并监控Hadoop分布式集群

Ganglia环境搭建并监控Hadoop分布式集群         简介 Ganglia可以监控分布式集群中硬件资源的使用情况,例如CPU,内存,网络等资源。通过Ganglia可以监控Hadoop集群在运行过程中对集群资源的调度,作为简单地运维参考。       环境搭建流程   1、我们先在主机...

2016-05-09 19:51:38

阅读数:4671

评论数:0

Python字符串操作汇总

Python字符串操作汇总         字符串操作 复制字符串 sStr1 = 'Alice' sStr2 = sStr1 print sStr2 #打印结果 :Alice 连接字符串 sStr1 = 'Alice' sStr2 = ' Bob' sStr1 +...

2016-05-07 18:53:49

阅读数:1784

评论数:1

爬虫程序定时执行和监控示例

爬虫程序定时执行和监控示例         简介 我们的爬虫程序在执行过程中,可能需要满足以下条件: 1、可以每天定时执行,爬取指定电商等网站内容。 2、可以对分布式爬虫进行监控,当爬虫程序挂掉之后,可以通知管理员。   下面我们来介绍如何实现这两个功能。   注意: 这...

2016-05-06 19:23:20

阅读数:14375

评论数:2

Zookeeper分布式安装配置

Zookeeper分布式安装配置       Zookeeper介绍 概述 1、ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的...

2016-05-06 00:05:46

阅读数:5305

评论数:0

Redis主从复制和集群配置

Redis主从复制和集群配置         redis主从复制 概述 1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并...

2016-05-03 19:58:30

阅读数:45482

评论数:5

Redis高级特性及应用场景

Redis高级特性及应用场景         redis中键的生存时间(expire) redis中可以使用expire命令设置一个键的生存时间,到时间后redis会自动删除它。 过期时间可以设置为秒或者毫秒精度。过期时间分辨率总是 1 毫秒。过期信息被复制和持久化到磁盘,当...

2016-05-03 10:50:23

阅读数:24234

评论数:9

爬取京东本周热卖商品所有用户评价存入MySQL

爬取京东本周热卖商品所有用户评价存入MySQL       说明 本项目是对(爬取京东本周热卖商品基本信息存入MySQL)项目的追加,所以会有一些内容上的衔接,例如工具的使用方法等在此篇就不赘述,大家可以直接去看上一个项目中的介绍。爬取京东本周热卖商品基本信息存入MySQL的链接...

2016-05-02 01:50:06

阅读数:9716

评论数:1

爬取京东本周热卖商品基本信息存入MySQL

爬取京东本周热卖商品基本信息存入MySQL         网络爬虫介绍 概述 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。     产生...

2016-05-02 01:13:38

阅读数:11454

评论数:3

Redis安装及使用

Redis安装及使用       Redis简介: 概述 1、Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。官网:http://redis.io/   2、redis是一个key-value...

2016-04-29 15:38:50

阅读数:7168

评论数:1

Spark 数据ETL

Spark 数据ETL         说明 1、本文翻译自《Machine Learning with Spark》书中第三章第3,4节内容。 2、本文一些内容基于http://blog.csdn.net/u011204847/article/details/51224383。 ...

2016-04-26 01:12:54

阅读数:11273

评论数:0

PySpark处理数据并图表分析

PySpark处理数据并图表分析         PySpark简介 官方对PySpark的释义为:“PySpark is the Python API for Spark”。 也就是说pyspark为Spark提供的Python编程接口。Spark使用py4j来实现pytho...

2016-04-23 01:57:58

阅读数:12200

评论数:0

Awk使用及网站日志分析

Awk使用及网站日志分析         Awk简介 概述 awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。aw...

2016-04-21 00:27:58

阅读数:11231

评论数:0

Shell编程详解

Shell编程详解       Shell简介   概述 Shell是一种具备特殊功能的程序,它提供了用户与内核进行交互操作的一种接口。它接收用户输入的命令,并把它送入内核去执行。内核是Linux系统的心脏,从开机自检就驻留在计算机的内存中,直到计算机关闭为止,而用户的应用程序存储在...

2016-04-19 00:39:31

阅读数:23629

评论数:4

Java正则表达式

Java正则表达式         正则表达式简介 概述 正则表达式定义了字符串的模式,可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言,但是在每种语言中有细微的差别。Java的正则表达式和Perl的是最为相似的。   特点 正则表达式的特点是: ...

2016-04-18 00:43:31

阅读数:4817

评论数:1

Java网络详解

Java网络详解       Java网络基本概念 网络基础知识   1、计算机网络形式多样,内容繁杂。网络上的计算机要互相通信,必须遵循一定的协议。目前使用最广泛的网络协议是Internet上所使用的TCP/IP协议   2、网络编程的目的就是指直接或间接地通过网络协议与其...

2016-04-16 23:56:23

阅读数:5068

评论数:0

Java IO流

Java IO流         Java IO简介 概述 流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象。即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输特性将流抽象为各种类,方便更直观的进行数据操作。 根据处理数据类型的不同分为:字符流和字节流根据数据流向...

2016-04-15 23:25:18

阅读数:4805

评论数:0

Java多线程详解

Java多线程详解         多线程简介 概述 多线程(multithreading),是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理或...

2016-04-12 20:55:01

阅读数:2158

评论数:2

Java面向对象

Java面向对象       面向对象 面向对象在开发中是一种运用对象、类、继承、封装、聚合、消息传递、多态等概念来构造系统的软件开发方法。   面向对象其实是相对于面向过程而言。   面向对象在开发中的优点: 减少软件的复杂性 可维护性可扩展性可重用性 ...

2016-04-11 03:30:05

阅读数:1211

评论数:0

Scala Actor通信

Scala Actor通信         简介 Actor提供了并发程序中与传统的基于锁的结构不同的另一种选择。通过尽可能避免锁和共享状态,Actor使得我们能够更加容易设计出正确、没有死锁或争用状态的程序。Scala类库提供了一个Actor模型的简单实现,除此之外还有其他更高级的A...

2016-04-10 19:11:31

阅读数:2232

评论数:0

Scala XML处理

Scala XML处理       简介 XML是一种半结构化数据的形式。它比单纯的字符串更为结构化,因为它把数据内容组织成了树结构。尽管如此,单纯的XML的结构化程度依然比不上编程语言的对象,因为它允许在标签之间存在自由格式的文本,并且它缺少类型系统。任何在你需要序列化程序数据以保存到文件或...

2016-04-10 13:07:02

阅读数:3668

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭