目的
目前所接触的数据库暂时包含Mysql和Mongodb。数据库的作用是存储大量数据,因为数量大,所以需要通过spark在python上进行操作。Spark的优势是所有数据都在内存中操作,减少I/O的次数从而大大提升速度。如果单纯在本地上用python处理数据,速度将非常慢。目前所有操作均在由3台机器搭载的服务器上。本文将简单的记录一下如何用python对接mongodb。
Mongodb
读取
首先看一下Mongodb的连接:
from pymongo import MongoClient
# Assign connect info
host = 'xx.xx.xx.xx'
port = xxxxxx
username = "xxxxxx"
password = "xxxxxx"
# Making connection