PredictionIO安装使用 PredictionIO 是一个开源的机器学习服务器框架,用Scala语言开发。它提供了简单的方式使用REST API来创建推荐引擎,也提供客户端SDK,包含REST API. 客户端SDK对Java, Python, PHP都适用。不过它的官方文档感觉不太友好,配置的时候走了些弯路,本文简单分享一下配置过程。
hive和presto一些好用的自定义udf函数 自己编写了一些hive和presto的udf函数,最近在github上开源了(可以查看hive-third-functions和presto-third-functions)。有需要的人可以直接下来用,项目README中有详细的用法说明。如果有好的建议或发现了bug,可以在issue提问题。也欢迎加入自己的udf,完善这个第三方函数库。
git安装配置及基本使用 安装git1)windows安装msysgit,下载地址:http://msysgit.github.io/安装的时候,基本选择默认设置,但是:在Adjusting your PATH environment页,勾选Run Git from the Windows Command Prompt2)ubuntu用命令“git --version”查看是否已安装,且版本为1
linux系统中保证不删除重要的文件 safe-rm重新封装了/bin/rm,它可以用来保护重要文件。安装方法:sudo apt-get install safe-rm此时重要的目录或文件就不会被删除,例如:$ sudo rm -rf /usrSkipping /usr可以通过配置/etc/safe-rm.conf 或 ~/.safe-rm 添加你的需要保护的路径或文件。
Scala学习笔记(1) 为什么选择Scala?表达能力函数是一等公民闭包简洁类型推断函数创建的文法支持Java可重用java库可重用java工具没有性能惩罚Scala如何工作?编译成Java字节码可在任何标准JVM上运行甚至是在一些不规范的JVM上,如DalvikScala编译器是Java编译器的作者写的
Hive编程指南学习笔记(2) 我们可以使用describe extended financial.employee命令来查看这个表的详细表结构信息(如果当前所处的工作数据库就是financial,那可以不佳finanacial)。如果使用formatted替代关键字extended的话,那可以得到更多的输出信息。如果用户只想查看某一列的信息,那么只要在表名后增加这个字段的名称即可。这种情况下,使用extended关键字
菜鸟学python-基础(3) 模块模块就是把一组相关的函数或代码组织到一个文件中,即一个文件就是一个模块。模块是由代码、类和函数组成的,其中类和函数可以有0个或多个。新建一个firstModule.py,即定义了一个名为firstModule的模块。在该模块定义两个函数和一个类,并在该类中定义一个方法,代码如下:# _*_ coding:utf-8 _*_# 自定义模块def function_one():
菜鸟学python-基础(2) 变量命名:1)必须以字符或下划线开头2)以单下划线开头(_fo)表示不能直接访问的类属性,需要类提供的接口进行访问3)以双下划线开头(__foo)的代表类的私有成员4)以双下划线开头(__foo__)和结尾的代表python中特殊方法专用的标识,例如__init__()代表类的构造函数全局变量关键字 global_num = 12def myfunction ()
Hive编程指南学习笔记(1) hive一次使用命令:$ hive -e "select * from mytable limit 1;"OKname1 1name2 2Time taken: 3.935 seconds$ hive -e "select * from mytable limit 1;" > /tmp/myfile$ cat /tmp/myfileOKname1 1name
自己动手在Linux下编译JDK 因为决定学习Java虚拟机,所以打算从自己编译JDK开始入手。本文是学习Java虚拟机的第一篇文章,后续会有更多相关文章。获取源码本文选择的源码版本为1.7。可以使用如下命令来获取源码:1)安装Mercurial的最新版本Mercurial是与Git相似的一个分布式版本控制系统,但使用方法上与Subversion相似。如果你使用过Subversion,很容易迁移到Mercu
HBase文件格式演变之路 Apache HBase是Hadoop的分布式开源的存储管理工具,非常适合随机实时的io操作。我们知道,Hadoop的Sequence File是一个顺序读写,批量处理的系统。但是为什么HBase能做到随机的,实时的io操作呢?Hadoop底层使用Sequence File文件格式存储,Sequence File允许以追加的方式增加k-v(Key-Value)数据,根据hdfs的appen
hbase 官方文档翻译 hbase官方文档相较于之前的又有了很多变化,但是中文版的翻译一直没来得及更新,之前和同事一起开始着手翻译新的官方文档。不过因为工作关系,这段时间翻译慢了下来。翻译的github地址:https://github.com/aaronshan/hbase-user-guide-cn。欢迎感兴趣的人一起参与~目前已经翻译的章节为1-7、16-17、19-20。
HBase创建快照(snapshot)出现异常的处理方法 今天在hbase中创建快照的时候遇到了如下错误:hbase(main):004:0> snapshot 'booking', 'booking-snapshot-20140912'ERROR: org.apache.hadoop.hbase.snapshot.HBaseSnapshotException: Snapshot { ss=booking-snapshot-20140912 ta
Linux命令之大文件切分与合并 当面临将一个大文件进行切分时,linux的split命令是很好的选择。它包含多种参数,支持按行、大小进行切分。split命令的语法如下:split [--help][--version][-a ][-b][-C ][-l ][要切割的文件][输出文件名前缀]对应的参数描述如下:-a, --suffix-length=N 使用的后缀长度 (默认为 2)-b, --bytes=S
Ubuntu下使用VirtualBox安装Mac OS X Mavericks(10.9)上篇 本文介绍如何在Ubuntu下安装Mac OS X Mavericks系统。具体如下:1)安装前准备工作下载Mac OS X Mavericks系统,地址:http://pan.baidu.com/s/1hqebqYw。需要下载的文件有:HackBoot_Mav.iso、OSXMavericks2.part1.rar 、OSXMavericks2.part2.rar 、OSXMaveri
Ubuntu安装qBittorrent qBitTorrent是Ubuntu Linux中最受欢迎的P2P软件之一。出自一名法国大学生之手的qBitTorrent功能强大,界面精美,操作直观。qBitTorrent是Linux中最受欢迎的P2P软件之一。不止如此,qBitTorrent还支持windows、mac、linux三大操作系统。它的主要特性包括:使用Qt4工具包编写出优美的图形用户界面;支持UPnP/NAT-PMP端口
HBase备份之ExportSnapshot或CopyTable 文章《HBase备份之导入导出》介绍了使用HBase的自带工具Export和Import来实现在主集群和从集群之间拷贝表的目的。本篇介绍一种相比导入导出而言,更快速的一种备份办法。即ExportSnapshot。1、ExportSnapshot和Export类似,ExportSnapshot也是使用MapReduce方式来进行表的拷贝。不过和Export不同,ExportSnapsho
HBase备份之导入导出 我们在上一篇文章《HBase复制》中讲述了如何建立主/从集群,实现数据的实时备份。但是,HBase复制只对设置好复制以后的数据生效,也即,配置好复制之后插入HBase主集群的数据才能同步复制到HBase从集群中,而对之前的历史数据,采用HBase复制这种办法是无能为力的。本文介绍如何使用HBase的导入导出功能来实现历史数据的备份。1)将HBase表数据导出到hdfs的一个指定目录中,具体命令