如何导入数据
数据可能有各种格式,虽然常见的是HDFS
,但是因为在Python爬虫中数据库用的比较多的是MongoDB
,所以这里会重点说说如何用spark导入MongoDB
中的数据。
当然,首先你需要在自己电脑上安装spark环境,简单说下,在这里下载spark,同时需要配置好JAVA
,Scala
环境。
这里建议使用Jupyter notebook
,会比较方便,在环境变量中这样设置
PYSPARK_DRIVER_PYTHON=jupyter
PYSPARK_DRIVER_PYTHON_OPTS=notebook ./bin/pyspark
如果你的环境中有多个Python版本,同样可以制定你想要使用的解释器,我这里是python36
,根据需求修改。
PYSPARK_PYTHON=/usr/bin/python36