- 博客(590)
- 资源 (68)
- 收藏
- 关注
原创 [spark]Spark thriftserver(HiveServer2) Custom认证
默认如果不配置的话,是不进行认证的。所以用beeline连接thriftserver时,可以填写任意用户名/密码,均可以认证成功。下面是进行Custom认证配置的过程:1.新建一个工程,引入spark-assembly-1.3.0-hadoop2.4.0.jar需要实现PasswdAuthenticationProvider接口,代码如下:package org.apache.ha
2015-05-27 19:01:29 4856
原创 ubuntu利用samba共享文件夹给windows
1.安装sambasudo apt-get install samba2.修改samba的配置文件sudo vi /etc/samba/smb.conf新增配置如下:[share]path=/home/pijing/workspacepublic=nowritable=yesvalid user=pijingshare代表了共享文件夹的标识;pa
2015-05-25 21:01:43 2885
原创 spark standalone模式配置
spark-env.shexport JAVA_HOME=/usr/local/jdk1.7export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoopexport SPARK_MASTER_IP=10.67.2.21export SPARK_USER_NAME=pijingexport MASTER=spark://10.67.2
2015-05-21 11:11:25 2419
原创 windows eclipse远程连接hadoop2.6
前提是eclipse安装了eclipse-hadoop插件,并下载好了hadoop2.6 release包和源码包。1. eclipse切换到map/reduce视图,配置Mapreduce location2.将hadoop解压缩到某个盘,如d盘。配置HADOOP_HOME和HADOOP_USER_NAME环境变量:并将%HADOOP_HOME%\bin配到环境变
2015-05-21 08:29:17 5041 2
原创 Spark thriftserver连elasticsearch
1.需要将elasticsearch-hadoop-2.1.0.Beta4.jar包放入/usr/local/spark/lib,下载地址为:https://www.elastic.co/products/hadoop/2.需要在/usr/local/spark/conf的hive-site.xml中进行配置3.启动thriftserver,并在—jars后面带上此jar包
2015-05-19 14:25:51 3009 1
原创 SparkSQL利用HDFS的权限控制表的读权限
Spark内置的thrift-server(连接hive)的对权限管理支持得并不是很好,只支持了create/drop权限的控制,但是任意用户都可以读任意库/表,委实是一个问题。为了解决这个问题,可以用HDFS的文件权限控制来对表的读权限进行控制。1.新建用户由于Hive,HDFS都是用系统用户来做权限控制的,所以需要新建一个系统用户。比如新建一个mytest用户,如下图所示:
2015-05-18 21:38:36 7589 1
原创 eclipse scala url
http://download.scala-ide.org/sdk/helium/e38/scala211/stable/site
2015-05-13 20:47:26 697
原创 Protocol Buffer的使用(python)
1.需要安装Protocol Buffer直接:apt-get install protobuf-compiler安装完毕后,进入解压目录的python目录,执行python setup.py install;安装python的protobuf库即可。2.可以查询到它的大致用法pijing@ubuntu:~/protobuffer$ protoc -hUsage: pr
2015-05-13 00:01:07 6756
原创 [spark]spark读取postgresql的表(纯SQL方式)
1.thrift-server启动时,需要带上pg的驱动2.在beeline中,需要add jar带上pg的驱动;然后再将pg映射为spark的表;最后才可以进行查询: 3.写成python代码类似于:
2015-05-11 17:38:07 5058 2
原创 [spark]解决beeline连接thrift-server加载数据权限问题
1.如果期望spark的表存放到hive的hdfs中需要在环境变量及conf/spark-env.sh中配置HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop2.如果期望用beeline连接thrift-server时不报权限错误需要在环境变量及conf/spark-env.sh中配置HADOOP_USER_NAME=有hdfs权限的用
2015-05-07 09:48:38 4168
原创 [django]url请求与数据库连接池的共享问题
但凡介绍数据库连接池的文章,都会说“数据库连接是一种关键的有限的昂贵的资源,这一点在多用户的网页应用程序中体现得尤为突出。对数据库连接的管理能显著影响到整个应用程序的伸缩性和健壮性,影响到程序的性能指标。数据库连接池正是针对这个问题提出来的。数据库连接池负责分配、管理和释放数据库连接,它允许应用程序重复使用一个现有的数据库连接,而不是再重新建立一个;释放空闲时间超过最大空闲时间的数据库连接来避免因
2015-04-24 14:03:55 4869 1
原创 [Spark]Django项目使用Spark(thrift-server)
上午时弄了半天的pyspark,没有想到还有thrift-server和pyhs2这样的神器。使用过程比pyspark的使用更为简单,用了之后类似于使用数据库的感觉。(connect,cursor,execute这些方法及使用完全和用psycopg2连接postgresql的感觉一致),当然,这只是我目前粗浅的尝试的感觉。1.首先得启动thrift-server,命令大概类似于:
2015-04-22 21:02:15 4516 4
原创 [Spark]Django项目中使用Spark(pyspark)
本博文所需的环境:1.ubuntu 132.已经安装好JDK,python,django,Hadoop,spark,eclipse,apache。并已经配好相应的环境变量首先,为了让eclipse能够支持python项目的开发。需要下载PyDev压缩包。这个我已经上传了,下载路径:http://download.csdn.net/detail/rongyongfeikai2
2015-04-22 13:13:12 8086
原创 SQL where树生成及树转字符串
最近要封装数据库接口,查询的关键是where条件。如何让不懂SQL的用户,通过某些接口,拼接出符合条件的SQL,成为了一个问题。不论多复杂的where,应该只包括3种类型的元素,表达式与逻辑操作符及组合元素。表达式,即形同:colname>=val,colname=val,colname like '%val%'等等的元素逻辑操作符,即or,and组合元素:即逻辑操作符+表达式,或
2015-04-21 00:22:30 2488
原创 django apache2.2 mod_wsgi的编译
1.必须要安装python-devel,可以sudo apt-get install python-devel要不然会报python.h找不到到错误2.mod_wsgi的源码地址:https://pypi.python.org/pypi/mod_wsgi需要注意的是configure阶段,如果是自行安装的apache和python,需要指定apxs和python的路径:sudo .
2015-04-15 23:56:05 818
原创 [Hadoop]HDFS文件的相关操作(上传、新建、删除和重命名)
package com.hadooplearn.test;import java.io.FileOutputStream;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apac
2015-04-14 22:39:26 14568 1
原创 [Hadoop]Hadoop上传本地文件到HDFS
代码如下,需要注意标红处,要不然会出现FileNotFound(permission deny)得错误。package com.hadooplearn.test;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;
2015-04-13 23:35:33 7711
原创 [Hadoop]伪分布式Hadoop每次start都需要重新format namenode
问题RT。原因是Hadoop的临时文件存放在tmp文件夹中,每次重启电脑后,就被删除了。所以,需要在core-site.xml中配置临时文件路径: fs.default.name hdfs://127.0.0.1:9000 hadoop.tmp.dir /usr/lo
2015-04-13 21:53:28 1042
原创 [Hadoop]Hadoop2.6.0的eclipse插件编译
要编译,首先得安装ant。http://ant.apache.org/安装ant比较简单,解压缩到/usr/local/ant下,再将/usr/local/ant/bin加入path环境变量即可。下面是编译Hadoop2.6.0的eclipse插件到过程:1.Hadoop2x eclipse插件源码在github上,地址为:https://github.com/winghc/h
2015-04-12 22:32:24 4120 3
原创 [Hadoop]基本概念及安装
1.环境系统:Ubuntu 13.04Hadoop版本:2.6.02.Hadoop基本结构Hadoop本身是一个分布式处理框架。它由以下几个部分组成:Hadoop Common是Hadoop的核心及基础;HDFS 分布式文件系统,是Google的GFS的开源实现;MapReduce 也是对Google的MapReduce理念的实现;配套的相关项目:1.HBa
2015-04-12 18:03:30 695
原创 用python合并两个PHP文件(PHP文件内容为array)
test文件内容:<?php return array( 'a' => "AAAAAA",//sdfsfsdffd "b" => 'BBBBBB');?>test1文件内容:<?php return array( 'c' => "CCCCCC",//sdfsfsdffd "d" => 'DDDDDD',);?>假设
2015-04-07 23:00:40 1168
原创 ubuntu source
/etc/apt/sources.listdeb http://mirrors.sohu.com/ubuntu/ utopic main restricted universe multiversedeb http://mirrors.sohu.com/ubuntu/ utopic-security main restricted universe multiversedeb ht
2015-03-21 08:37:08 725
原创 OSGI+Maven的两条经验
1.看到在component.xml中写有setHttpService和unsetHttpService(类似)的方法,但是,就是在apache-karaf中运行不起来,OSGI一直404。应该就是org.osgi.http.service和org.osgi.http.component没有引入。对应于MANIFEST.INF的dependency就如下图:对于apache-kar
2015-03-18 23:27:45 1985
原创 囧囧笑话集V2.0开发笔记(2015-01-18)
1.图片分为缩略图和大图,缩略图在获取笑话时从web服务器端同步下载,保存在data路径下;当点击缩略图时,用WebView展示网络图片。2.PHP端的Web服务器获取图片列表的接口,返回值可以是一个json串,里面是{图片名:图片二进制串};由于二进制串在保存为JSON时会出错,可以考虑用BASE64编码后再进行json_encode。3.JAVA端从Web服务器端获取到图片列表,先进行
2015-01-18 18:34:10 676
原创 记录一次数据库挂了的问题
下午时接到个反馈,说是数据库挂了。然后立即远程上去看,首先就看windows事件日志,发现里面的postgresql报错全是关于postmaster.pid已存在的。故得知原因是非正常停止数据库导致postmaster.pid存在,相当于lock住了,再启动服务就不成功。故选择删除postmaster.pid,重启服务器成功。此次原因很简单,大概5分钟左右就搞定。接近5点又接到个反馈,说另
2015-01-14 18:20:45 5564
原创 小文件(大量时)的性能问题
记录一个比较有趣的问题:在小文件非常多的情况下,会对性能有什么影响?首先看写操作:在写文件时,操作系统需要向硬盘管理系统发送IO请求,那么多个小文件,就意味着操作系统要向硬盘管理系统发送多次IO请求。随着文件数目上升,多个IO请求耗费的时间逐渐累加,最终甚至可以大于本身写数据所耗费的时间。(当然那么多的小文件,还会要为它们建立索引,索引也会耗费时间)嘴上说无益,我们来做个写文件实验
2015-01-10 12:51:11 10357 2
原创 MySQL服务启动报:系统错误1067问题的排查与解决
说句题外话:最近在听《御龙品青梅》,这真是适合在写程序时单曲循环的神曲,一点也不会打扰思路。说到青梅,想当年曹孟德青梅煮酒,对刘玄德说:论天下英雄,唯使君与操耳。孟德虽然被评为奸雄,但他毕竟真去刺杀过暴虐又好色的董卓,而且文能横槊赋诗,武能官渡之战中以少敌多大败袁绍,又培养了个能七步成诗的儿子,除去赤壁之战的败北,算得上是一生辉煌;而刘玄德,虽然背着“仁德”的美名,却"借"荆州而不还,又取
2015-01-09 20:50:05 4862
转载 MyEclipseGen(7.0神器)
import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;public class MyEclipseGen { private static final String LL = "Decompiling this copyrighted software is a
2014-12-19 21:20:40 701
转载 读取drawable文件夹的图片(根据文件名)
获取在android项目的drawable文件夹下面的图片//得到application对象ApplicationInfo appInfo = getApplicationInfo();//得到该图片的id(name 是该图片的名字,"drawable"是该图片存放的目录,appInfo.packageName是包名)int resID = getResources().g
2014-12-15 22:27:21 5960
原创 Apache服务的安装与卸载
我们产品的安装版本中是默认带Apache2.2,然后一位同事去前场,不小心又安装了一个Apache,还卸了。结果,本身的的那个Apache都跑不起了了。这时候,一定不能慌。问题,是绝对有办法解决的。首先cd 到apache的bin目录。1.卸载Apache服务的命令httpd -k uninstall -n apache2.2apache2.2是服务名,视实际情况而定2
2014-12-10 13:00:35 36047
原创 PHP提供Web Service服务供JAVA调用(SOAP+WSDL)
一.PHP部分首先是Operator.php,它提供了加、减、除三种运算方法(add,substract,divide),同时,校验SOAP Header,如果传入的头部username/password不对应admin/123,则认为是非法调用:<?php class Operator{ private $forbidden = '403 forbidden'; pr
2014-12-10 09:50:47 4215
原创 Apache JMetter进行FTP上传文件性能测试
刚弄完一个定制,还有一个定制。这个定制需要用到文件传输,想到项目中本身就有FTP服务器,别的日志什么的都是通过FTP上传的。就想,再开放一个单独的FTP用户,特定到某个文件夹下,接收的文件都放到这个特定的文件夹下。再利用cron定时监听文件夹,对文件进行处理就够了。但是,协同开发的同事,对于FTP的性能产生了疑虑。因为,可能多个用户并发传输,会不会导致FTP服务把内存或CPU占满,导致整个
2014-12-04 15:59:28 6940
原创 如何处理大数据入库和查询问题
DB的SQL查询所带来的编程方面的灵活,是其他NoSQL方式的存储和查询几乎无法取代的。就拿ElasticSearch的存储和查询来举例,它是很快,处理亿级数据是小Case。但是:1.结构发生变化怎么办?举个例子,很多时候,都会由于业务的变更而某些表增加字段的情况。对于DB来说,只需要alter table *** add column *** 即可以了;但是ElasticSearch却涉
2014-12-03 12:42:19 4517
转载 C#利用HttpWebRequest进行post请求的示例(HTTPS)
代码如下:using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Net.Security;using System.Security.Cryptography.X509Certificates;using System.Net;using Sys
2014-12-01 23:35:26 78272 2
原创 JAVA利用HttpClient进行POST请求(HTTPS)
目前,要为另一个项目提供接口,接口是用HTTP URL实现的,最初的想法是另一个项目用JQuery post进行请求。但是,很可能另一个项目是部署在别的机器上,那么就存在跨域问题,而JQuery的post请求是不允许跨域的。这时,就只能够用HttpClient包进行请求了,同时由于请求的URL是HTTPS的,为了避免需要证书,所以用一个类继承DefaultHttpClient类,忽略校验过
2014-12-01 23:06:31 443953 51
原创 OPenAM(OPenSSO)URL POST请求
环境如下:机器A:Tomcat运行了OpenAM,保护其Apache服务器配置的WEB项目,Apache配置了Agent。WEB项目是用PHP写的,已经开启了跨域访问,即配置了:header("Access-Control-Allow-Origin:*");header("Access-Control-Allow-Headers:*");header("Access-Control
2014-12-01 16:01:19 2294
转载 PHP标准Web Service
1、创建wsdl 说明: A、非标准的webservice,可能只能PHP才能访问 B、标准的webservice,就必须要使用wsdl(webservice description language,就是用XML语法标准来描述你的服务内容,我是这么理解的)在这里我只介绍标准的webservice。 那么如何创建wsdl呢?对于PHP来说这确实是件很不容易的事情,有人说用z
2014-11-27 22:34:40 933
原创 JAVA调用PHP SOAP服务
WebService即是一种跨平台的远程调用方法。一方提供服务,另一方使用服务。传输协议是HTTP,而传输的数据则是XML格式的数据。它有两种方式,WSDL和SOAP。目前仅提及SOAP。1.PHP提供SOAP服务定义一个类,它里面有加、减和除三种操作<?php class Operator{ public function add($x,$y){ ret
2014-11-27 22:27:49 4200 2
转载 JAVA调用PHP SOAP服务的示例
Image you had a php service that would connect to a mysql database and return query results via soap.That php service (SOAP server) could look like that:12345678910
2014-11-27 21:47:58 2786
原创 Windows下OpenAM的配置
在一台Windows7系统的机器上进行OpenAM的配置。该机器上已经安装了JDK、Apache2.2、Tomcat。1.首先配置机器的host文件,配置如下(C:\Windows\System32\drivers\etc\host):127.0.0.1 localhost openam.example.com www.example.com2.将openam_10.0.1.zip解压
2014-11-26 21:46:22 5026
phantomjs-linux
2017-04-10
PostgreSQL9.6并行查询(中文)
2017-03-21
softflowd源码包
2016-11-24
hadoop2.6 windows需要的dll文件
2015-05-21
PyDev4.0.0
2015-04-22
jline-2.9.1
2015-04-16
eclipse lua的hadoop2.6.0插件
2015-04-12
masm5.0编译器
2015-03-29
win7(64)运行debug
2015-03-29
elasticsearch.js
2014-10-30
ThinkPHP3.0
2014-02-22
ThinkPHP3.1.3完整包
2014-02-22
python27安装matplotlib的包及依赖
2014-01-12
PowerCmd安装文件
2013-12-03
apache2.2和python2.7的mod_wsgi
2013-10-26
windows gettext0.18
2013-10-21
TortoiseSVN-1.8.2.24708-x64-svn-1.8.3
2013-09-20
SlikSVN1.7.5(64位)
2013-09-20
Mod_Python中文文档
2013-04-02
Python3.3安装文件
2013-03-28
Wing IDE集成开发环境
2013-03-28
PHP帮助文档
2013-03-07
Apache2.2WEB服务器
2013-03-05
Zend Framework1.1.2
2013-03-05
PHP+MySQL开发的投票管理系统
2013-03-04
PHP+MySQL开发的留言本系统
2013-02-26
PHP+ACCESS开发的会议记录系统
2013-01-15
ADODB5.1.1
2012-12-31
Mod_Python2.7安装文件
2013-03-30
MySQL-Python2.7安装文件
2013-03-30
Python2.7安装文件
2013-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人