python爬取知乎文章_【Python3】利用selenium抓取知乎用户的文章

本文介绍了如何使用Python3的selenium库抓取知乎用户的文章信息,包括标题、链接、作者、点赞数和评论数,并存储到MongoDB数据库中。通过CSS选择器和正则表达式解析页面,最后展示了抓取成果。
摘要由CSDN通过智能技术生成

【背景】

前段时间,阅读知乎上一些用户写的文章的时候觉得阅读起来比较麻烦,不符合我的阅读感受。比如下边这个,我想阅读牛客网的文章(如图1所示),我会通过标题先进行筛选,但是这样滚动下滑太麻烦了,所以想着不如将标题信息爬下来,另外,点赞数和评论数也顺便抓取下来,这样还能看该用户被点赞数最多的文章是哪一篇。说干就干!图1 知乎用户牛客网的文章

【思路】

利用selenium抓取知乎用户的文章页面源码,接着用pyquery库来解析文章相关信息,并将其保存到MongoDB数据库中,通过MongoDB Compass这个可视化工具可以可视化的操作数据库,还可以进行数据的导入导出。

【涉及知识点】基本库的使用

selenium库、pyquery库、pymongo库的使用

CSS selector的使用

正则表达式

【预装库及软件】首先确保自己的电脑安装了MongoDB数据库。

MongoDB Compass软件自己视情况而定,如果常用命令行操作数据库的话,这个可以不安装,对我们的数据抓取没有影响。

确保你的Python3环境中有下边几个库,pymongo、selenium和pyquery要自己安装,可以直接用pip进行安装。

import re

import time

import pymongo

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值