自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

lzz360的专栏

如果你现在不搞电子商务,那么五年后你会后悔的

  • 博客(140)
  • 收藏
  • 关注

转载 Azkaban-开源任务调度程序(安装篇)

Azkaban-开源任务调度程序(安装篇)字数1166 阅读2318 评论2 喜欢13最近项目迁移到新集群,试试同事推荐的开源任务调度程序-azkaban(阿兹卡班),没看错,就是哈利波特里的阿兹卡班,azikaban主要用来解决hadoop依赖任务的执行,但是它本身支持linux和java程序,因此适合做小项目的任务调度管理程序。Azkaban官网它有三个重要组件:

2016-08-31 19:20:04 1667 1

转载 Flume环境部署和配置详解及案例大全

Flume环境部署和配置详解及案例大全投稿:hebedich 字体:[增加 减小] 类型:转载 时间:2014-08-11 我要评论flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。  一、什么

2016-08-16 14:05:35 782

原创 spark 调试方法总结

1 日志调试配置 log4j.properties (只显示警告信息)# log4j.rootCategory=INFO, consolelog4j.rootCategory=WARN, console 程序中使用loggerimport org.apache.log4j.Loggerobject TestSpark extends App{val

2016-08-14 17:28:09 3463

转载 spark-submit 提交作业到集群

1 IDEA 打包示例代码参考AMPCamp2015之SparkSQL,开发环境使用idea。首先需要将程序打包成jar选择project structure --》artifacts ,由于集群已经有了运行依赖的jar包,打包时可以将这些jar包排除出去,以减小打包后的jar包的大小。点击ok,然后选择build --》build artifacts,

2016-08-14 14:56:40 4916

原创 hdfs 文件权限设计

描述:有三个部门 (app开发小组,web开发小组,数据分析小组)其中app开发小组的数据和web开发小组的数据是相互独立了,数据分析小组有权限分析来自app web两个部门的数据步骤1 创建组groupadd appsgroupadd websgroupadd dw(数据分析小组)2 创建成员useradd  -g apps  app //创建ap

2016-08-14 11:09:34 605

原创 ubunut 挂载远程目录

1 安装sshfssudo apt-get install sshfs fuse2 挂载sshfs -o idmap=user username@ip.address:/remote/file/system/~/remote

2016-08-13 21:43:51 572

原创 sparkStreaming+flume

spark ***********************import org.apache.spark.streaming.{Seconds, StreamingContext}import org.apache.spark.SparkConfimport org.apache.spark.storage.StorageLevelimport org.apache.spark.s

2016-08-11 17:46:38 343

转载 ubuntu 环境下编译 hadoop 2.6.0的简单方法

ubuntu 环境下编译 hadoop 2.6.0的简单方法  由于服务器一般都64位系统,hadoop网站的release版本32位native库不能运行,所以需要自己在编译一下。以下是我采用的一个编译的过程,比较简单,不用下载各种版本及环境配置,通过命令就能自动完成了。系统环境为ubuntuserver 64位版。1、安装JDK,我这里使用的

2016-08-11 10:48:21 371

翻译 Git的常用命令的使用方法和解释

常用的git命令:  add        Add file contents to the index(将文件添加到暂存区)用法:保存某个文件到暂缓区: git add 文件名 保存当前路径的所有文件到暂缓区: git add . (注意,最后是一个点 . ) 2.   bisectFind by binary search the change that int

2016-08-09 12:07:13 425

翻译 ubuntu sun-pingying

Ubuntu中文输入法IBUS的安装第一:安装IBus框架,sudo apt-get install ibus ibus-clutter ibus-gtk ibus-gtk3 ibus-qt4启动IBus框架,在终端输入:im-switch -s ibus安装完IBus框架后注销系统,保证更改立即生效。第三步:安装拼音引擎 有下面几种常用选择:IBus拼音:

2016-08-08 10:51:59 1840

原创 jupyter (ptyhon|R)

安装jupyter1 pip install jupyter (python3+ use pip3)2 启动 jupyter notebook安装irkernel 支持Rhttp://irkernel.github.io/installation/#source-panelsudo apt-get install python-sklearn1 sudo apt-get install libzmq3-dev2 R 安装gith

2016-08-07 00:18:43 1157

转载 ipython+notebook

1. 环境操作系统:ubuntu 14.04 2. 操作步骤a)  安装pip工具终端输入以下命令:sudo apt-get install python-pipb) 安装ipython终端输入以下命令:sudo apt-get install ipythonc) 安装ipython[notebook]终端输入以下命令:sudo

2016-08-05 23:23:11 404

原创 docker 使用

这篇文章介绍的很好 http://kb.cnblogs.com/page/536115/# 安装dockersudo apt-get install docker.io# 查看帮助文档docker# 查看我们的docker信息docker info# 启动docker服务sudo service  docker start (/etc/init.d/dock

2016-06-30 21:55:47 739

原创 spark 读取hbase中的数据

import org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Scanimport org.apache.hadoop.hbase.mapreduce.TableInputFormatimport org.apache.hadoop.hbase.protobuf.Protob

2016-06-24 15:38:59 2057

原创 R语言源码安装插件包

下载http://mirrors.ustc.edu.cn/CRAN/src/contrib/ 对应的包然后 sudo R CMD INSTALL package.tar.gz解压压缩包后可以找到对应函数的实现方式比如arules_1.4-1.tar.gzcd arules R目录下就有apriori算法的具体实现方式了( apriori.R)如果要使用软件包

2016-06-13 14:57:08 2187

原创 ubuntu docker 安装及简单应用

1 安装dockersudo apt-get install docker.io2 查看帮助文档docker3 查看我们的docker信息docker info4 运行容器* 安装容器docker pull ubuntu:14.04* 运行docker run -it ubuntu:14.04* 更新软件源apt-get updatesudo a

2016-06-13 10:57:49 438

原创 php总结二

php 基础总结

2016-06-13 10:55:05 336

原创 r语言处理mysql数据

r语言操作mysql数据

2016-06-13 10:53:22 1669

原创 Rstudio 的安装

rstudio 安装和报错处理

2016-06-13 10:49:52 1227

原创 spark rdd 操作

spark rdd 操作

2016-06-13 10:46:00 1201

原创 php 判断skip32 加密后是否有重复

$max = 1000000000 - 500000000;$file_str = array();$page = 1;$page_count = 1000000;for( $i = 0; $i {    $key = skip32_encode( $i );    $str = $i.':'.$key."\n";    $file_name = $key % 10

2016-05-11 15:31:21 1082

原创 查询一张表的数据去更新另一张表

update zmt_wx_user as t1 set user_fan_count=(select t2.fans from zmt_wechat_official as t2 where t2.id < 386 and t1.user_id=t2.id and t1.uid=t2.zmt_user_id) WHERE t1.user_id < 386;

2016-01-11 15:50:42 3266

翻译 debian安装rz sz

(1)编译安装root 账号登陆后,依次执行以下命令:1cd /tmp2wget http://www.ohse.de/uwe/releases/lrzsz-0.12.20.tar.gz3tar zxvf lrzsz-0.12.20.tar.g

2015-12-16 16:33:02 6050

原创 php composer

$ curl -sS https://getcomposer.org/installer | phpphp composer.phar install

2015-12-10 10:13:45 385

原创 获取微博用户数据

/** * Created by PhpStorm. * User: lzz * Date: 12/3/15 * Time: 10:49 AM * * 微薄接口,包含了新浪微薄和腾讯微薄 * 通过用户名获取新浪微薄用户数据 * 通过用户id获取腾讯微薄用户数据 */class Weibo{    /**     * 获取用户信息 id 头像

2015-12-04 15:53:45 1792

转载 通过用户名称获取微博id

PHP 通过微博昵称获取用户的UID2014-8-4 15:16:39代码1条评论有的时候我们需要调用一些微博的组件,这些调用都需要获取用户在微博的UID,让用户亲自去找UID会降低用户体验,所以我们需要想一些办法来获取。起初想到的就是访问微博搜索页面,正则匹配页面内容,找到UID,存入数据库。但是经过实验后发现,在经过一定次数的读取之后,无法读取了,手动输出page内容一看,

2015-12-04 10:23:44 6546

转载 通过用户名称获取微博id

PHP 通过微博昵称获取用户的UID2014-8-4 15:16:39代码1条评论有的时候我们需要调用一些微博的组件,这些调用都需要获取用户在微博的UID,让用户亲自去找UID会降低用户体验,所以我们需要想一些办法来获取。起初想到的就是访问微博搜索页面,正则匹配页面内容,找到UID,存入数据库。但是经过实验后发现,在经过一定次数的读取之后,无法读取了,手动输出page内容一看,

2015-12-04 09:38:48 4560

翻译 php-fpm的作用

nginx本身不能处理PHP,它只是个web服务器,当接收到请求后,如果是php请求,则发给php解释器处理,并把结果返回给客户端。nginx一般是把请求发fastcgi管理进程处理,fascgi管理进程选择cgi子进程处理结果并返回被nginx本文以php-fpm为例介绍如何使nginx支持PHP一、编译安装php-fpm什么是PHP-FPMPHP-F

2015-10-13 16:10:06 3113

翻译 字符串和编码

字符串和编码阅读: 39927字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大

2015-10-09 15:55:45 513

翻译 用R解析Mahout用户推荐协同过滤算法(UserCF)

用R解析Mahout用户推荐协同过滤算法(UserCF)RHadoop实践系列文章,包含了R语言与Hadoop结合进行海量数据分析。Hadoop主要用来存储海量数据,R语言完成MapReduce 算法,用来替代Java的MapReduce实现。有了RHadoop可以让广大的R语言爱好者,有更强大的工具处理大数据1G, 10G, 100G, TB, PB。 由于大数据所带来的单机性能问题

2015-09-25 15:19:33 1344

转载 RMySQL

RMySQL数据库编程指南R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言,一直在小众领域闪耀着光芒。直到大数据的爆发,R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入,R语言的社区在迅速扩大成长。现在已不仅仅是统计领域,教育,银行,电商,互联网….都在使用R语言。要成为有理

2015-09-25 11:29:17 2705

转载 MongoDB数据库设计中6条重要的经验法则,part 1(每日一译:2014-07-23)

原文:6 Rules of Thumb for MongoDB Schema Design: Part 1By William Zola, Lead Technical Support Engineer at MongoDB“我有丰富的sql使用经验,但是我是个MongoDB的初学者。我应该如何在MongoDB中针对一对多关系进行建模?”这是我被问及最多的问题之一。我没法简

2015-09-23 21:32:21 567

转载 Linux shell脚本的字符串截取

Linux 的字符串截取很有用。有八种方法。假设有变量 var=http://www.hao.com/123.htm..  一 # 号截取,删除左边字符,保留右边字符。   echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即

2015-08-13 15:08:07 460

转载 debian 安装phpredis

安装phpredis模块https://github.com/owlient/phpredis下载phpredis解压shell> cd phpredisshell> /usr/local/php/bin/phpize      这个phpize是安装php模块的shell> ./configure --with-php-config=/usr/lo

2015-08-13 14:01:26 1318

转载 Ubntu 14.04 LTS 下编译安装R Source Code

在Ubuntu 14.04 LTS 发布后,立刻重装.作为一名伪统计学爱好者,不得不装R软件...于是ctrl +alt+T 打开终端,输入 sudo apt-get install R-base-core复制代码....然后习惯性地...输入R复制代码...我去,我惊讶了R version 3.0.2

2015-07-23 10:58:37 1343

转载 如何在Ubuntu中安装R软件

1.首先更新sources.listcd /etc/apt/sudo gedit sources.list2.更新软件源deb http:///bin/linux/ubuntu saucy/deb http:///bin/linux/ubuntu raring/deb http:///bin/linux/ubuntu quantal/deb http:///bin

2015-07-21 23:41:34 5400

转载 推荐系统原理介绍

最近在做推荐系统,在项目组内做了一个分享。今天有些时间,就将逻辑梳理一遍,将ppt内容用文字沉淀下来,便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂,要走的路还很长。A First Glance为什么需要推荐系统——信息过载随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,信息量也在以几何倍数

2015-07-17 09:40:19 1103

转载 用Hadoop构建电影推荐系统

问题导读:1.推荐系统概述;2. 推荐系统指标设计;3. Hadoop并行算法;4. 推荐系统架构;5. MapReduce程序实现。前言Netflix电影推荐的百万美金比赛,把“推荐”变成了时下最热门的数据挖掘算法之一。也正是由于Netflix的比赛,让企业界和学科界有了更深层次的技术碰撞。引发了各种网站“推荐”热,个性时代已经到来。

2015-07-16 23:08:49 1530

转载 如何进行路由器的端口映射 让外网可以访问内网的机器

有时候,我们处于一个局域网里,用着内网的ip,但是由于只有一个公网ip,所以内网中的web服务器或者vpn服务器都不能对外开放,我们可以通过路由器的宽口映射功能来把某些服务对外开放。工具/原料路由器方法/步骤  首先登陆你的路由器,具体的地址看路由器反面说明,我这边是192.168.1.

2015-07-16 11:25:14 28429 1

转载 多台linux 知道公网IP 内网IP 如何向某台机器上放文件

你的网络是怎样连接的?假设多台路由器某几台在一个局域网内,另几台在另一个局域网中,通过公网连接。中间有路由器。内网之间复制直接使用scp命令,比如1号到2号,或者1号到3号都可以1scp /tmp/test.txt root@remote_server_ip:/tmp/这条命令只能将文件复制到 remo

2015-07-16 11:21:17 1359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除