【Python学习】Day-14 爬虫、BeautifulSoup

ChenAi140

已于 2022-07-08 18:22:44 修改

阅读量226

点赞数

分类专栏： Python学习文章标签： python 爬虫学习

于 2022-07-08 17:47:17 首次发布

本文链接：https://blog.csdn.net/ChenAi_140/article/details/125683161

版权

Python学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用Python的requests和BeautifulSoup库爬取中国新闻网的新闻前10页，包括新闻类型、标题、链接和时间，并将数据存储到Excel文件。首先创建Excel工作簿，然后设置请求头以伪装成浏览器防止被识别为爬虫。通过循环遍历页面，获取每个新闻条目的相关信息，并将它们写入Excel表格。最后，保存文件并完成爬取过程。

摘要由CSDN通过智能技术生成

Python爬虫

python爬虫爬取新闻前10页的新闻

requests - 请求页面，得到响应结果
BeautifulSoup4 - 根据响应结果解析页面、提取数据写入文件、数据库
bs4 -> BeautifulSoup4

import requests
from bs4 import BeautifulSoup as bs
import openpyxl

wb =openpyxl.Workbook()
wb.create_sheet('新闻', 0)
sh = wb['新闻']
title = ['类型', '新闻', '链接', '时间']
for i in range(4):
    sh.cell(1,i+1).value = title[i]
# bs4模块能够从html或者xml中提取数据。

# headers = {}   --> headers是一个字典:{key:value}
# headers是给爬虫提供伪装的
# User-Agent  --> 将爬虫伪装成浏览器
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.5060.53 Safari/537.36 Edg/103.0.1264.37'}

count = 2
for page in range(1,11):
    url = f'https://www.chinanews.com.cn/scroll-news/news{page}.html'
    rsp = requests.get(url=url, headers=headers)
    # print(rsp)

    # 如果状态码=200，爬虫可用
    if rsp.status_code == 200:
        # 打印页面源代码(字符串类型)
        rsp.encoding = 'UTF-8'
        # print(rsp.text)
        print('网页访问正常')
        # 网页分为静态页面和动态页面
        # 静态页面：内容是写死的，除非人为对内容进行修改，否则这个页面的内容是一成不变的
        # 动态页面：内容不是写死的，使用某种特殊的技术(JavaScript) 使数据通过某种方式显示在页面中

        # requests得到的结果是静态结果。
    else:
        print(rsp.status_code)

    # BeautifulSoup(网页源码, 解析器) ---> 将字符串类型的源代码转换为bs4类型
    # bs模块提供了一系列提取数据的方法，这些方法的操作对象是bs4类型的数据
    soup = bs(rsp.text, 'html.parser')
    # print(soup)
    # select: 根据css选择器(标签、class、id等)定位数据，得到的是符合这个选择器的所有结果（整体是列表，列表中每个元素是bs4类型的数据）
    # select_one：根据css选择器(标签、class、id等)定位数据，得到的是符合这个选择器的一个结果（一个bs4类型的数据）
    # text：从bs4类型数据中提取标签内的内容
    # attrs：从bs4类型数据中提取标签内容属性值
    li_list = soup.select('body > div.w1280.mt20 > div.content-left > div.content_list > ul > li')
    # print(li_list)
    for i in li_list:
        if i.select_one('li > div.dd_lm > a') != None:
            news_type = i.select_one('li > div.dd_lm > a').text
            news_title = i.select_one('li > div.dd_bt > a').text
            news_href = 'https://www.chinanews.com.cn' + i.select_one('li > div.dd_bt > a').attrs['href']
            news_time = i.select_one('li > div.dd_time').text
            # print(news_type+'   '+news_title+'   '+news_href+'   '+news_time)
            sh.cell(count,1).value = news_type
            sh.cell(count,2).value = news_title
            sh.cell(count,3).value = news_href
            sh.cell(count,4).value = news_time
            count += 1
    
wb.save('../file/新闻.xlsx')

print('写入完成')