2019年01月_lepton126

11月 10月 09月 08月 06月 05月 04月 03月 02月 01月

原创 ipynb文件

需要对ipynb文件进行测试，所以要先安装Jupyter Notebook，具体的过程如下1、安装pip$ wget https://bootstrap.pypa.io/get-pip.py -o get-pip.py # 下载安装脚本#rm get-pip.py#mv get-pip.py.1 get-pip.py# python get-pip.py # 运行安装脚本...

2019-01-29 08:15:13 470

转载 win10 XManager远程CentOS 7

转自 https://www.zybuluo.com/wuzhimang/note/392271使用X Manager远程CentOS 7服务器（XDMCP）linux xwindows centos 使用X Manager远程CentOS 7服务器（XDMCP） 0. 前言 1. 问题描述 2. 安装使用步骤（以lightdm和xfce为例） 2.1 安装&amp...

2019-01-28 08:43:31 853

原创 DataFrame' object has no attribute 'map'

在对 python的sparksql 代码中测试中，在spark1.6中使用dataframe的map对象时， session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\...

2019-01-24 14:34:21 10415 1

原创使用pyspark 分析日志

Apache Spark is the smartphone of BigData 后台是三节点spark集群，python的版本是3.5.4，spark版本是spark-2.3.0-bin-hadoop2.7，在windows10系统下运行需要处理的数据部分内容如下所列，字段以TAB键分隔121508281810000000 http://www.yhd.com/?uni...

2019-01-22 15:33:47 2032

原创 python: can't decompress data; zlib not available

在测试pyspak代码时，报错/usr/local/bin/python: can't decompress data; zlib not available，在spark集群的所有节点上执行 #yum install zlib*问题仍旧存在 Error from python worker: /usr/local/bin/python: can't decompress data...

2019-01-14 17:01:41 7025

原创 linux 环境下 python的安装及pyspark 的环境变量配置

在linux环境下安装 python时，要安装相关的依赖，具体如，这里假设的环境是centos 或是 redhat-安装devtoolset #yum groupinstall "Development tools"-安装编译Python时需要的相关依赖 #yum install zlib-devel bzip2-devel openssl-devel sqlite-d...

2019-01-14 09:37:21 3858

原创 pyspark 学习网站

https://www.iteblog.com/archives/1400.html Spark Python API函数学习spark flink hadoop hive hbase flume scala

2019-01-10 09:56:52 235

转载 anaconda python 版本对应关系

引自 https://blog.csdn.net/yuejisuo1948/article/details/81043823首先解释一下上表。 anaconda在每次发布新版本的时候都会给python3和python2都发布一个包，版本号是一样的。表格中，python版本号下方的离它最近的anaconda包就是包含它的版本。举个例子，假设你想安装python2.7.14，在表格中找...

2019-01-09 16:19:37 1551

原创 python3中的删除键是ctrl+backspace

在centos7.4中的python3.6的环境下，在进行行命令交互是，直接使用del键或backsapce键是不能删改敲击的命令，要实现删除或修改的功能要使用ctrl+backspace。...

2019-01-09 08:58:20 1686

原创 Failed to locate the winutils binary in the hadoop binary path 报错解决

WINDOWS10环境下单机下调试pyspark代码，在没有配置HADOOP_HOME的环境变量，会产生ERROR Shell:397 - Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Could not locate executable null\bin\winutil...

2019-01-07 10:08:22 1213

原创 Exception in thread "main" java.util.NoSuchElementException 错误解决

spark-2.4.0-bin-hadoop2.7 和 spark-2.3.0-bin-hadoop2.7是有区别的。当时pyspark测试程序的运行环境 C:\Users\test>java -versionjava version "1.8.0_131"Java(TM) SE Runtime Environment (build 1.8.0_131-b11)Java H...

2019-01-06 14:53:22 5982

原创一条行命令执行多个命令

一、符号；并行执行，不论其中的命令是否成功，均执行$ cd aaa;pwd-bash: cd: aaa: No such file or directory/home/testuser二、符号 && 串行执行，一个命令一个命令地执行，出现错误不往下执行第一个命令没有成功$ cd aaa && pwd -bash: cd: aaa: No...

2019-01-03 08:45:52 1023