- 博客(5)
- 资源 (1)
- 收藏
- 关注
原创 配置python2.7开发环境
1. 安装easy_install sudo apt-get install unzip 下载文件: wget https://pypi.python.org/packages/source/s/setuptools/setuptools-7.0.zip 安装:unzip setuptools-7.0.zip cd setuptools-7.0/ sudo pytho
2016-01-28 18:34:55 763
原创 Hadoop参数优化整理
系统调整 1. io.file.buffer.size 用来设置缓存的大小。不论是对硬盘或者是网络操作来讲,较大的缓存都可以提供更高的数据传输,但这也就意味着更大的内存消耗和延迟。这个参数要设置为系统页面大小的倍数,以byte为单位,默认值是4KB,一般情况下,可以设置为64KB(65536byte) 2. df.block.size 对于一个Mapreduce作业(尤其是用子类Fil
2016-01-27 17:13:34 4267 2
原创 Linux下python升级
下载 wget http://www.python.org/ftp/python/3.3.0/Python-3.3.0.tgz 解压 tar zxvf Python-3.3.0.tgz 进入主目录 cd Python-3.3.0 首先建立安装目录 sudo mkdir /usr/local/python3 编译安装 ./configure --prefix=/usr/lo
2016-01-26 15:24:59 350
原创 Spark 动手实践 (2)
1. count()与countByValue() 一种总体统计,一种分组统计。 总体统计: num_occupations = user_fields.map(lambda fields: fields[3]).count() print "num_occupations ",num_occupations输出结果 num_occupations 943 分组统计: cou
2016-01-26 15:20:28 5155
原创 python动手实践(1)
1. 安装单机版预编译包: tar zxvf spark-1.3.1-bin-cdh4.tgz 注意选择的Hadoop版本一定与本机上部署的Hadoop版本一致,Java环境也要部署好。 2. 声明系统变量 vi .bashrc 添加如下内容: export SPARK_HOME=/home/hadoop/spark-1.3.1-bin-cdh4 3. 为了使用pyspark,将此目
2016-01-25 16:40:12 395
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人