Python lxml库爬取问答问题, 并通知新问题

qfcy_

已于 2023-07-04 17:51:31 修改

阅读量633

点赞数 1

分类专栏： Python 爬虫文章标签： python 爬虫 lxml

于 2022-08-14 11:32:10 首次发布

本文链接：https://blog.csdn.net/qfcy_/article/details/126329853

版权

Python 同时被 2 个专栏收录

29 篇文章 30 订阅

订阅专栏

爬虫

2 篇文章 1 订阅

订阅专栏

在问答的一个版块, 如果有人发布了新的问题, 问答不会进行通知。
为了使更多提问者的问题能得到即时、快速的回答，编写了爬取问题标题程序,
用于在新问题发布时, 回答者能得到即时的通知。

1.下载页面

使用requests库的get方法即可, 注意添加headers, 否则会爬取不到内容。
requests库可使用pip安装: pip install requests。

from requests import get
from lxml.etree import HTML, tostring

headers = {
"User-Agent": """Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"""
}

url = "https://ask.csdn.net/ask"
req = get(url,headers=headers)
text=req.content.decode('utf-8')

2.解析XPath

首先创建lxml.etree的HTML()对象。
该对象的xpath()方法会返回一个列表, 包含符合这个XPath的所有标签。

tree = HTML(text)
ques = tree.xpath('//*[@id="floor-ask-content-index_493"]/div/div/div[2]/div/div/div[1]/a/h2')
for q in ques:
    print(q.text) # 打印出标题

3.自动通知新问题

程序使用2个列表, 分别是lst, lst_new 保存爬取结果,
如果上一次爬取结果和本次不一致, 则输出本次爬取结果中新增加的问题。
最终的程序如下:
(源代码: gitcode.net/qfcy_/python/-/blob/master/WEB/爬取问题.py)

from requests import get
from lxml.etree import HTML, tostring
import time

def update(print_new = True):
    global lst,lst_new
    headers = {
    "User-Agent": """Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
    (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36"""
    }

    url = "https://ask.csdn.net/ask"
    req = get(url,headers=headers)
    text=req.content.decode('utf-8')

    tree = HTML(text)
    ques = tree.xpath('//*[@id="floor-ask-content-index_493"]/div/div/div[2]/div/div/div[1]/a/h2')
    lst_new=[]
    for q in ques:
        lst_new.append(q.text)
        if q.text not in lst and print_new:
            print("新问题: ",q.text)

    lst = lst_new.copy()

lst=[]
lst_new=[]
update(print_new = False) # 首次运行更新列表
time.sleep(5)
while True:
    update()
    time.sleep(8)