Mahout 入门
1.解压tar -zxvf
2.配置环境变量
set mahout environment
export MAHOUT_HOME=/usr/local/src/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
set hadoop environment
export HADOOP_HOME=/usr/local/src/hadoop-1.2.1
export HADOOP_CONF_DIR=$HADOOP_HOME/conf
export PATH=$PATH:$HADOOP_HOME/bin
export HADOOP_HOME_WARN_SUPPRESS=not_null
export LC_ALL="zh_CN.UTF-8"
export LANG="zh_CN.UTF-8"
export LC_CTYPE="zh_CN.UTF-8"
rpc与client server的区别
rpc是传递参数,调用服务器的过程处理参数,然后返回客户端,那么client server不是也是将客户段的信息传递给服务器然后让服务器处理并返回的吗,两者到底有什么区别?
什么是 RPC ? Remote Procedure Calls
远程过程调用 (RPC) 是一种协议,程序可使用这种协议向网络中的另一台计算机上的程序请求服务。由于使用 RPC 的程序不必了解支持通信的网络协议的情况,因此 RPC 提高了程序的互操作性。在 RPC 中,发出请求的程序是客户程序,而提供服务的程序是服务器。 RPC(远程过程调用)是一项广泛用于支持分布式应用程序(不同组件分布在不同计算机上的应用程序)的技术。
RPC 的主要目的是为组件提供一种相互通信的方式,使这些组件之间能够相互发出请求并传递这些请求的结果。CS结构就是Client/Server(客户/服务器)
C/S又称Client/Server或客户/服务器模式。服务器通常采用高性能的PC、工作站或小型机,并采用大型数据库系统,如Oracle、Sybase、Informix或 SQL Server。客户端需要安装专用的客户端软件。 C/S的优点是能充分发挥客户端PC的处理能力,很多工作可以在客户端处理后再提交给服务器。对应的优点就是客户
端响应速度快。缺点主要有以下几个:
1).只适用于局域网。而随着互联网的飞速发展,移动办公和分布式办公越来越普及,这需要我们的系统具有扩展性。
2).这种方式远程访问需要专门的技术,同时要对系统进行专门的设计来处理分布式的数据。
3).客户端需要安装专用的客户端软件。首先涉及到安装的工作量,其次任何一台电脑出问题,如病毒、硬件损坏,都需要进行安装或维护。特别是有很多分部或专卖店的情况,不是工作量的问题,而是路程的问题。还有,系统软件升级时,每一台客户机需要重新安装,其维护和升级成本非常高。 对客户端的操作系统一般也会有限制。可能适应于Win98, 但不能用于win2000或Windows XP。或者不适用于微软新的操作系统等等,更不用说Linux、Unix等。
protobuf
一种数据压缩
物品元数据
物品元数据就是我们生成正排表的数据源
jsoup
python beautifulsoup
爬虫——数据补充,信息补充,充分性扩展,排序
搜索引擎工具/检索系统
lucence
C++ boost,server3
thrift rpc(中小型公司用,一个框架)——比webpython快10倍
thrift rpc + protoful
json
json 是一种格式(字符串),也是一种(k,v)形式,前面是k,后面是value。服务器发送json给客户端,前端进行解析