Python（二）爬虫网页

最新推荐文章于 2024-08-06 11:55:39 发布

庄舟

最新推荐文章于 2024-08-06 11:55:39 发布

阅读量274

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/JonWu0102/article/details/81239415

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import requests
import re
from lxml import html
from bs4 import BeautifulSoup

payload = {
    "os_username": "xxxxx",
    "os_password": "xxxxxxx",
    "login": "Log in",
    "os_destination": "",
}

# 登陆session
session_requests = requests.session()

login_url = "https://wiki.*********"
result = session_requests.post(
    login_url,
    data=payload,
    headers=dict(referer=login_url)
)

# 爬取页面
url = 'https://wiki*********/pages/viewinfo.action?pageId=35343810'
result = session_requests.get(url)

soup = BeautifulSoup(result.text, 'lxml')
for title in soup.find_all("a", text=re.compile("-")):
    print(title)