有几点需要注意的:
不要安装最新的pyspark版本,请安装`pip3 install pyspark==2.3.2`
`spark-connector`与平常的MongoDB写法不同,格式是:`mongodb://127.0.0.1:database.collection`
如果计算数据量比较大,你的电脑可能会比较卡,^_^
Show me the code!
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@author: zhangslob
@file: spark_count.py
@time: 2019/01/03
@desc:
不要安装最新的pyspark版本
`pip3 install pyspark==2.3.2`
更多pyspark操作MongoDB请看https://docs.mongodb.com/spark-connector/master/python-api/
"""
import os
from pyspark.sql import SparkSession
# set PYSPARK_PYTHON to python36
os.environ['PYSPARK_PYTHON'] = '/usr/bin/python36'
# load mongodb data
# 格式是&#x