今天在公司又听同事说到相亲的事,然后想爬取上海的用户信息看看,
先查看了一下电脑版的百合网,发现必须要登录,数据一次性只能拿取6-8条,然后在查看手机端,也是必须要登录,数据通过拿取json文件,可以一次性GET方式拿取100条,还可以通过设置参数,设置筛选条件,所以决定使用手机端来爬
先用scrapy简单的尝试,发现数据和自己设置的条件是不一样的,检测过后,发现是假数据!!!想了一会,要使用scrapy比较麻烦,最后使用selenium 加PhantomJS来完成数据爬取,然后存到mongodb数据库
from selenium import webdriver
import pymongo
import json
import time
import re
class Xiangq(object):
def __init__(self):
self.client = pymongo.MongoClient("localhost", 27017)
# 获得数据库test1
self.db = self.client.baihe
# 获得集合stu
self.stu = self.db.baihe
# 调用环境变量指定的PhantomJS浏览器创建浏览器对象
# driver = webdriver.PhantomJS()
# /home/python/Desktop/chromdriver