pyspark
pyspark大数据处理
落叶1210
这个作者很懒,什么都没留下…
展开
-
pyspark实战(六)pyspark+happybase批量写入hbase操作
pyspark和happyhase操作hbase需要提前部署和安装pyspark和happyhbase的python包,具体的安装过程可看靠前面章节,这里不再赘述。1、引入相关包from pyspark import SparkContext,SparkConf #pyspark包,v2.2.0import happybase #ha...原创 2019-07-16 22:17:17 · 3318 阅读 · 0 评论 -
Pyspark实战(五)pyspark+happybase操作hbase
Hbase环境参考上一章节安装happybasePip install happybase创建test.py,代码如下:from pyspark.sql import SparkSessionimport happybasedef hpbase(): spark = SparkSession.builder.appName('SparkHBaseRDD').mast...原创 2019-07-01 23:29:26 · 1048 阅读 · 0 评论 -
Pyspark实战(四)pyspark操作hbase
环境配置:Spark启动环境中添加hbase的jar包以及spark-examples的jar包。1、下载spark-examples jar包,地址https://mvnrepository.com/artifact/org.apache.spark/spark-examples_2.11/1.6.0-typesafe-0012、将下载的spark-examples包放在hbase的...原创 2019-07-01 23:09:49 · 1980 阅读 · 3 评论 -
Pyspark实战(三)wordcount算子分析
Pyspark的本质还是调用scala的jar包,我们以上篇文章wordcount为例,其中一段代码为:rdd.flatMap(lambda x:x.split( )).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).foreach(lambda x:print(x))其中:flatMap,map为转换算子。reduceByKey,fore...原创 2019-06-28 01:01:23 · 578 阅读 · 0 评论 -
Pyspark实战(二)wordcount词频统计
E盘根目录创建test.txt输入测试内容如下:this is a testthis very goodyou is very goodwhat are you完整代码如下:from pyspark import SparkContext,SparkConfdef wordcount(): txtfile=r'E:\test.txt' c...原创 2019-06-27 23:40:33 · 1683 阅读 · 0 评论 -
Pyspark实战(一)环境部署
这里假设Python环境已经部署完成,相关版本如下:spark2.2.0,部署过程参考https://blog.csdn.net/luoye4321/article/details/90552674。 python3.7,部署过程参考https://www.runoob.com/python/python-install.html JavaJDK1.8以上版本 下载pyspark包使用...原创 2019-06-27 22:59:59 · 1840 阅读 · 0 评论