信息内容安全 实验1 基于Python的网络数据爬虫

 

一、实验目的

  1. 掌握网络爬虫的原理; 
  2. 使用Python语言编写爬虫代码;
  3. 爬取给定网站的所有发帖数据;

二、实验内容

  1. 爬取一个网站中的数据需要做以下准备工作,如图所示:

 2. 代码

设置为复杂访问信息,即添加请求头信息。

#爬取豆瓣书籍

import requests
from bs4 import BeautifulSoup
url = "https://book.douban.com/top250"  # 要爬取的网页
#  headers请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.77 Safari/537.36'
}
res1 = requests.get(url, headers=headers)
print(res1.status_code)  # res1.status_code是状态码的意思
#  输出 200, 则表明我们的步骤正确

soup = BeautifulSoup(res1.text, 'html.parser')
# print(soup)

pl2s = soup.find_all('div', class_='pl2')  # class=用class_=表示
print(pl2s)

for pl2 in pl2s:
    tag = pl2.find('a')
    link = tag['href']
    name = tag['title']
    print(name, link)

爬取的结果:

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值