使用selenium爬取百合网

本文讲述了如何利用selenium和PhantomJS爬取百合网的用户信息,因为百合网的数据获取有限制,作者选择了手机端进行爬取,通过设置筛选条件并解析JSON文件。在尝试使用scrapy失败后,转而使用selenium来模拟浏览器行为,最终成功爬取数据并存储到mongodb数据库。
摘要由CSDN通过智能技术生成

        今天在公司又听同事说到相亲的事,然后想爬取上海的用户信息看看,

先查看了一下电脑版的百合网,发现必须要登录,数据一次性只能拿取6-8条,然后在查看手机端,也是必须要登录,数据通过拿取json文件,可以一次性GET方式拿取100条,还可以通过设置参数,设置筛选条件,所以决定使用手机端来爬

        先用scrapy简单的尝试,发现数据和自己设置的条件是不一样的,检测过后,发现是假数据!!!想了一会,要使用scrapy比较麻烦,最后使用selenium 加PhantomJS来完成数据爬取,然后存到mongodb数据库

from selenium import webdriver
import pymongo
import json
import time
import re

class Xiangq(object):
    def __init__(self):
        self.client = pymongo.MongoClient("localhost", 27017)
        # 获得数据库test1
        self.db = self.client.baihe
        # 获得集合stu
        self.stu = self.db.baihe
        # 调用环境变量指定的PhantomJS浏览器创建浏览器对象
        # driver = webdriver.PhantomJS()

        # /home/python/Desktop/chromdriver


#self.lis=  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值