selenium模拟浏览器的facebook数据采集案例(仅限学习使用)

DocP

已于 2023-01-21 13:55:19 修改

阅读量567

点赞数

分类专栏：数据采集数据抓取爬虫文章标签： facebook python 开发语言

于 2022-09-14 23:08:21 首次发布

本文链接：https://blog.csdn.net/qq_45729286/article/details/126861090

版权

数据采集同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

数据抓取

1 篇文章 0 订阅

订阅专栏

爬虫

1 篇文章 0 订阅

订阅专栏

该博客介绍了一种使用Selenium库配合Chrome浏览器驱动来抓取Facebook用户和公共主页信息的方法。通过反反爬策略，可以应对网站的异步渲染和复杂网络包。提供了初始化设置、登录、搜索用户和公共主页的接口。代码可在给出的Gitee链接中找到，仅供学习使用。

摘要由CSDN通过智能技术生成

简介

网站存在大量异步渲染，网络包复杂，所以选择使用selenium模拟浏览器进行操作。
gitee:https://gitee.com/PoleMin/selenium_facebook_scrapper

文件目录

main.py: 程序主文件

chromedriver.exe: 程序运行所需要的浏览器驱动

stealth.min.js: 反反爬所需要的js文件，在init_opt()函数中调用

环境配置

selenium库

# 通过pip安装selenium
pip install selenium

chromedriver

  [CNPM Binaries Mirror](https://registry.npmmirror.com/binary.html?path=chromedriver/)

  前往以上网址下载对应自己浏览器版本的chromedriver，并将且保存到程序所在根目录

python3

接口说明

# 初始化设置
# 功能：具体体现在反反爬、代理、请求等待
# params:
# proxy_url: 代理地址
# return:
# browser对象
init_opt(proxy_url)

# 用户登陆逻辑
# 功能：通过browser进行登陆
# params:
# browser: init_opt()返回的browser对象
# user_name: facebook登陆邮箱
# passwd: facebook登陆密码
# return:
# browser对象
login(browser, user_name, passwd)

# 查找用户
# 原理：通过id与base_url进行拼接进入主页, base_url:https://m.facebook.com/
# params:
# browser: login()返回的browser对象
# search_id: 查找用户的id
# return: 
# person_info json对象
search_user(browser, search_id)

# 查找公共主页
# 原理：通过搜索框中搜索公共主页名字进入
# params：
# browser: login()返回的browser对象
# search_name: 查找公共主页的名字
# return：
# page_info json对象
search_page(browser, search_name)