自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

艾文

专注NLP/推荐系统/数据挖掘

  • 博客(32)
  • 资源 (16)
  • 收藏
  • 关注

原创 【ImageMagick 】-ImageMagick的安装和使用

安装JPEG支持1.获取JPEG库包。从网上下载JPEG库包,地址为:http://www.ijg.org/files/   或使用2.使用root用户,将该包上传并解压缩。tar -zvxf jpegsrc.v8.tar.gz3.安装JPEG。cd jpeg*/./configure --enable-shared --enable-static ;make ;

2015-04-05 19:27:20 3264

原创 100303- ZooKeeper 配置管理代码实现案例

一、ZooKeeper的配置管理( Configuration Management)使用场景配置的管理在分布式应用环境中很常见,例如同一个应用系统需要多台 PC Server 运行,但是它们运行的应用系统的某些配置项是相同的,如果要修改这些相同的配置项,那么就必须同时修改每台运行这个应用系统的 PC Server,这样非常麻烦而且容易出错。像这样的配置信息完全可以交给 Zookeep

2015-04-05 19:19:49 2392 1

原创 100302- ZooKeeper详解

一、启动并验证ZooKeeper1、启动ZooKeeper[hadoop@cloud05 bin]$ ./zkServer.sh start[hadoop@cloud06 bin]$ ./zkServer.sh start[hadoop@cloud07 bin]$ ./zkServer.sh start2、验证ZooKeeper是否正常启动[hadoop@cloud

2015-04-05 19:18:57 986

原创 100301- ZooKeeper 基本概念介绍

ZooKeeper目录ZooKeeper详解 Client开发(Java)场景案例开发ZK集群WEB界面WEB监控一、ZK体系结构1、Server端具有fast fail特性,无单点故障。采用Leader/Follower模式,采用文件系统目录树型结构。例如:/NameService/aa,该节点即时目录和文件,通过路径作为一个唯一标识。该节点及时目录又是文

2015-04-05 19:17:08 767

原创 【hadoop】5004- Hadoop2.x 机制原理

一、Hadoop1.x 架构以及存在的问题参考文章: http://younglibin.iteye.com/blog/1921385二、Hadoop2.x HA架构以及优点1、在每一个NN上启动了DFSZKFailoverController来监听本地NN的运行状态,以便做出相应的判断处理2、zookeeper就算为了实现一个分

2015-04-05 19:15:24 1206

原创 【hadoop】5003- ZooKeeper 整体概况介绍

一、什么是Zookeeper?Zookeeper 是 Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等二、为什么使用Zookeeper?(1)大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程(如资源、任

2015-04-05 19:13:49 642

原创 【hadoop】5001- 搭建分布式集群节点规划

7台节点参考配置hadoop2.x (HA: 高可用)主机名IP地址进程cloud01192.168.2.31namenodezkfc  cloud02192.168.2.32namenodezkfc  cloud031

2015-04-05 19:08:17 2054

原创 【hadoop】 4005-如何使用MR统计两个文本信息

一、需求场景 两个文件product.txt ,order.txt 分别存放商品信息和订单信息,其中product.txt 内容为商品编码  商品名称AK000     裤子   AK001     衬衣AK002     外套AK004     皮鞋AK005     衣服其中order.txt 内容为商品编码  订单交易编码AK000      

2015-04-05 19:07:08 813

原创 【hadoop】 4004-Hadoop-2.4.1 版本中map任务待处理split大小的计算方法

一、MR如何计算splitSize,详见示意图二、MR如何对小文件进行优化1、文件上传HDFS前对小文件进行预处理,然后在上传HDFS (sequenceFile,可以对文件进行压缩,压缩后的文件可以直接通过FileInputFormat读取,无需解压)2、若小文件已经上传hdfs上,可以通过配置文件调整split,让多个block形成一个split

2015-04-05 19:06:07 812

原创 【hadoop】 4003-Hadoop计算中的Shuffle过程

shuffle过程示意图解读示意图内容基本概念1、Hadoop的shuffle过程就是从map端输出到reduce端输入之间的过程。Map阶段1、每个map有一个环形内存缓冲区,用于存储任务的输出。默认大小100MB(io.sort.mb属性),一旦达到阀值0.8(io.sort.spill.percent),一个后台线程把内容写到(spil

2015-04-05 19:03:57 689

原创 【hadoop】 4002-Combiner组件

一、引入Combiner的场景1、引入Combiner的原因每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。2、Combiner的适用场景比如说在汇总统计时,就可以使用Combiner,但是在求平均数的时候就是

2015-04-05 18:53:00 608

原创 【hadoop】 4001-Partitioner编程

MapReduce 重要组件——Partitioner组件(1)Partitioner组件可以让Map对Key进行分区,从而可以根据不同的key来分发到不同的reduce中去处理;(2)你可以自定义key的一个分发股则,如数据文件包含不同的省份,而输出的要求是每个省份输出一个文件;(3)提供了一个默认的HashPartitioner自定义Partitioner:

2015-04-05 18:51:49 577

原创 【hadoop】 3007-hadoop的提交job的源码分析

客户端提交job给MR的集群执行过程2.1、连接ResourceManager,通过执行Job中connect()来完成第一步:在job中执行this.cluster = new Cluster();执行结果返回job第二步:在Cluster类中ClientProtocol client = null; 引用。获取client = new YARNRunner(

2015-04-03 22:55:23 654

原创 【hadoop】 3006-hadoop对象序列化排序

目录1、原文本文件进行统计,暂不考虑排序功能2、对统计结果统计后,然后考虑排序(由于MapReduce框架中的suffle阶段 自动按照k进行的排序,故可以自定义对象,完成排序操作)一、参考3006,对统计的结果进行排序,排序内容[hadoop@cloud01 ~]$ hadoop fs -cat /flow/output/part-r-000001380013800

2015-04-03 22:50:47 667

原创 【hadoop】 3005-hadoop对象序列化编码

一、hadoop序列化操作  Writable接口, 是根据 DataInput 和 DataOutput 实现的简单、有效的序列化对象MR的任意Key和Value必须实现Writable接口.MR的任意key必须实现WritableComparable接口二、自定义Writable,实现MapReduce程序

2015-04-03 22:47:48 576

原创 【hadoop】 3004-hadoop序列化机制思想

一、序列化在分布式环境的两大作用1、进程间通信2、永久存储二、Hadoop节点通信1、Java的序列化2、hadoop的序列化传输方式同Java传输一致,由于hadoop仅仅是数据传输,不需要把继承的内容传输过去

2015-04-03 22:44:59 509

原创 【hadoop】 3003-mapreduce任务的提交

一、通过Eclipse下本地运行可以参考  【hadoop】 3002-mapreduce程序统计单词个数示例 章节的演示二、集群方式通过jar包形式运行1、处理数据的作业达成jar包并上传hdfs[hadoop@cloud01 HDFSdemo]$ pwd/home/hadoop/workspace/HDFSdemo[hadoop@cloud01

2015-04-03 22:43:51 1145

原创 【hadoop】 3002-mapreduce程序统计单词个数示例

一、新建文本文件wordcount.txt,并上传至hdfs服务器上[hadoop@cloud01 HDFSdemo]$ hadoop fs -cat /wc/wordcount.txthello worldhello Chinahello wenjiehello USAhello Chinahello Chinahello Japan[hadoop@c

2015-04-03 22:40:43 1516

原创 【hadoop】 3001-mapreduce并发框架思想

简述:MapReduce是什么?1、MapReduce工作机制 它可以将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果。其中 包含映射算法与规约算法。 MapReduce的主体是两个函数Map()和Reduce(),Map负责清洗数据,Reduce负责数据分析并输出最终结果,而且这两个功能之间并非一对一的关系,可以

2015-04-03 22:37:14 991

原创 【hadoop】 2007-远程debug

一、在hadoop调试过程,如何调试服务端代码,可以采用远程DEBUG模式进行1、服务器端启动脚本配置debug启动参数2、执行服务端启动脚本3、通过Eclipse来远程调试服务二、hadoop远程调试JPDA 简介Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构,使

2015-04-03 22:31:38 686

原创 【hadoop】 2006-hdfs源码分析下载初始化、下载过程

一、命令行模式上传 文件1、查看要上传文件的大小 [hadoop@cloud01 ~]$ ll -h jdk-7u65-linux-i586.tar.gz-rw-rw-r--. 1 hadoop hadoop 137M Jul 18  2014 jdk-7u65-linux-i586.tar.gz2、执行上传文件[hadoop@cloud01 ~]$ hadoop fs -

2015-04-03 22:25:44 821

原创 【hadoop】 2005-RPC协议

1、RPC: 远程调用协议。不同进程之间的远程方法调用。RPC采用客户机/服务器模式。请求程序就是一个客户机,而服务提供程序就是一个服务器。首先,客户机调用进程发送一个有进程参数的调用信息到服务进程,然后等待应答信息。在服务器端,进程保持睡眠状态直到调用信息的到达为止。当一个调用信息到达,服务器获得进程参数,计算结果,发送答复信息,然后等待下一个调用信息,最后,客户端调用进程接收答复信

2015-04-03 22:23:12 531

原创 【hadoop】 2004-hdfs datanode容错

DataNode 每隔一段时间向NameNode回报信息。通过心跳机制(RPC机制)通信,如果           dfs.replication        3   其中当一个节点宕机后,NameNode会让DataNode水平复制数据块到其他DataNode节点,以确保数据安全,从而实现了HDFS中DataNode容错能力。

2015-04-03 22:21:42 1056

原创 【hadoop】 2003-hdfs的java接口

一、下载Eclipse版本http://www.eclipse.org/downloads/?osType=linux二、Linux下安装Eclipse1、上传eclipse通过xshell工具上传eclipse-jee-luna-SR1a-linux-gtk.tar.gz   文件到指定目录2、解压 eclipse-jee-luna-SR1a-linux-gt

2015-04-03 22:20:22 1989

原创 【hadoop】 2002-数据同步流程

NameNode概念1、是整个文件系统的管理节点。维护整个文件系统的文件目录书u,文件/目录的元数据和每个文件的对应的数据块列表。接收用户的操作请求。2、文件包括2.1 fsimage : 元数据镜像文件。存储某一时间段NameNode内存元数据信息2.2 edits : 操作日志文件2.3 fstime: 保持最近一次checkpoint的时间  

2015-04-03 22:16:21 1029

原创 【hadoop】 2001-hdfs原理

HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的文件系统一样,可以通过目录路径对文件执行 CRUD(Create、Read、Update和Delete)操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些 DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户端通过同NameNode和DataNod

2015-04-03 22:16:17 657

原创 【hadoop】 1009-hdfs的shell命令

本章重点讲解hdfs shell :通过shell命令操作hdfs从以下三点说明一下hdfs shell即可1、hdfs2、hdfs dfs3、hdfs dfs -help   hdfsshell命令[hadoop@cloud01 hadoop-2.4.1]$ hdfshadoop@cloud01 hadoop-2.4.1]$ hdfs dfs[

2015-04-03 22:13:56 1211

原创 【hadoop】 1008-使用64位Linux编译hadoop2.2.0

使用64位Linux编译hadoop2.2.0查看服务器的版本[hadoop@cloud01 hadoop]$ more /proc/version Linux version 2.6.32-358.el6.i686 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4

2015-04-03 22:12:03 534

原创 【dubbo】-004ZooKeeper+Dubbo架构搭建

ZooKeeper+Dubbo架构搭建

2015-04-03 21:56:26 1197

原创 【dubbo】-003 dubbo中 ZooKeeper的安装

dubbo中 ZooKeeper的安装

2015-04-03 21:52:26 903

原创 【dubbo】-002dubbo基本功能

dubbo基本功能

2015-04-03 21:44:14 908

原创 【dubbo】-001dubbo的基本介绍

dubbo的基本介绍

2015-04-03 21:40:42 1636

pytorch-flask-api.zip

本章节中,我们将使用Flask 部署一个Pytorch模型,并未模型预测提供一个REST API 接口。下面,我们部署一个预训练好的模型DenseNet 121,该模型用于检测图片

2019-08-26

word2vec-sentiments-IMDB-Data.zip

词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示,而且可以对整个句子或文章进行表示。 想象一下,能够使用固定长度的向量表示整个句子,然后我们可以使用标准的分类算法去分类。是一件很神奇的事情。 本章以Word2Vec 为基础,使用Doc2Vec 来做些情感分析的任务问题。 IMDB预料 进行分类(积极or消极),可以提供的数据集

2019-07-26

tachyon 介绍

Tachyon是以内存为中心的分布式文件系统,能够为集群计算框架(如:Spark,MapReduce等)提供内存级速度的跨集群文件共享服务。本文档让你快速入门

2016-02-18

CDH的安装和使用

开源的hadoop生态圈的安装和维护很难,通过cloudera公司的cdh来管理,但是对于CDH的安装对于初学者总会存在一定的困难,本文档详细介绍CDH的离线安装和使用

2015-12-08

solr搜索引擎-课程文件培训

本文档包括以下内容,通过下载该内容可以让你掌握solr学习的入门和适应基本开发。 1.学员操作手册-Solr搜索自动补全 2.solr实训教程.doc 3.积分商城基于Solr的搜索引擎优化.pdf 4.基于Solr的搜索引擎优化讲义.pdf 5.课程大纲-基于搜索引擎培训.doc 6.学员操作手册-Solr数据库插入索引.doc 7.学员操作手册-部署solr服务.doc

2014-02-20

solr企业级搜索引擎准备阶段

Apache Solr 是一个开源的搜索服务器,Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现. Solr 运行在Java的Servlet容器上,诸如: Tomcat or Jetty。 Solr 是一个免费的开源搜索引擎免费软件。 Solr 是一个基于Lucence的开源项目,可以通过下面网址下载。 http://lucene.apache.org/solr/ http://archive.apache.org/dist/lucene/solr/

2013-11-19

UML工具培训

1. 初步认识rational rose 2. rational rose 在项目中应用 3. 通过uml介绍瀑布模型和RUP模型。

2013-11-19

solr搜索自动补全

类似京东,淘宝搜索自动补全功能。通过suggest.js插件来完成功能开发。

2013-11-19

Solr数据库插入(全量和增量)索引

Solr数据库插入(全量和增量)索引,全量一般用于第一次创建索引情况,批量一般更新数据部分创建索引。

2013-11-19

积分商城基于Solr搜索引擎PPT

1. 积分商城现状 2. 搜索领域知识、原理、应用 3. Solr简介、部署及中文分词 4. SolrJ项目中应用 5. Solr分布式应用 6. 大型网站架构分析

2013-11-19

UML视图的名称

UML视图的图片,通过该图片可以很好的掌握UML视图的画法

2013-03-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除