信息内容安全实验1 基于Python的网络数据爬虫

最新推荐文章于 2024-07-24 23:49:50 发布

不爱吃萝卜的兔子rob

最新推荐文章于 2024-07-24 23:49:50 发布

阅读量201

点赞数 1

分类专栏：信息内容安全实验文章标签： python 爬虫安全网络安全

本文链接：https://blog.csdn.net/douzi657/article/details/139683973

版权

信息内容安全实验专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、实验目的

掌握网络爬虫的原理；
使用Python语言编写爬虫代码；
爬取给定网站的所有发帖数据；

二、实验内容

爬取一个网站中的数据需要做以下准备工作，如图所示：

2. 代码

设置为复杂访问信息，即添加请求头信息。

#爬取豆瓣书籍

import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250"  # 要爬取的网页
#  headers请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
res1 = requests.get(url, headers=headers)
print(res1.status_code)  # res1.status_code是状态码的意思
#  输出 200, 则表明我们的步骤正确

soup = BeautifulSoup(res1.text, 'html.parser')
# print(soup)

pl2s = soup.find_all('div', class_='pl2')  # class=用class_=表示
print(pl2s)

for pl2 in pl2s:
    tag = pl2.find('a')
    link = tag['href']
    name = tag['title']
    print(name, link)

爬取的结果：