2016年01月_victory0508

12月 11月 10月 09月 06月 03月 02月 01月

原创配置python2.7开发环境

1. 安装easy_install sudo apt-get install unzip 下载文件： wget https://pypi.python.org/packages/source/s/setuptools/setuptools-7.0.zip 安装：unzip setuptools-7.0.zip cd setuptools-7.0/ sudo pytho

2016-01-28 18:34:55 763

原创 Hadoop参数优化整理

系统调整 1. io.file.buffer.size 用来设置缓存的大小。不论是对硬盘或者是网络操作来讲，较大的缓存都可以提供更高的数据传输，但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数，以byte为单位，默认值是4KB，一般情况下，可以设置为64KB（65536byte） 2. df.block.size 对于一个Mapreduce作业（尤其是用子类Fil

2016-01-27 17:13:34 4267 2

原创 Linux下python升级

下载 wget http://www.python.org/ftp/python/3.3.0/Python-3.3.0.tgz 解压 tar zxvf Python-3.3.0.tgz 进入主目录 cd Python-3.3.0 首先建立安装目录 sudo mkdir /usr/local/python3 编译安装 ./configure --prefix=/usr/lo

2016-01-26 15:24:59 350

原创 Spark 动手实践（2）

1. count()与countByValue() 一种总体统计，一种分组统计。总体统计： num_occupations = user_fields.map(lambda fields: fields[3]).count() print "num_occupations ",num_occupations输出结果 num_occupations 943 分组统计： cou

2016-01-26 15:20:28 5155

原创 python动手实践（1）

1. 安装单机版预编译包： tar zxvf spark-1.3.1-bin-cdh4.tgz 注意选择的Hadoop版本一定与本机上部署的Hadoop版本一致，Java环境也要部署好。 2. 声明系统变量 vi .bashrc 添加如下内容： export SPARK_HOME=/home/hadoop/spark-1.3.1-bin-cdh4 3. 为了使用pyspark,将此目

2016-01-25 16:40:12 395

Django Web开发指南.pdf

Django Web开发指南

2012-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 配置python2.7开发环境