学习 Python 的 Day14，BeautifulSpou4解析页面（爬虫）

VIP文章 KathAmy

已于 2022-07-19 16:37:22 修改

阅读量275

点赞数

分类专栏：初级Python 文章标签： python 爬虫学习

于 2022-07-09 09:53:35 首次发布

本文链接：https://blog.csdn.net/qq_67780151/article/details/125689407

版权

Day14

步骤

requests - 请求页面，得到响应结果
BeautifulSoup4 - 根据响应结果解析页面、提取数据
写入文件、数据库

引用模块

import requests
from bs4 import BeautifulSoup

注：bs4 -> BeautifulSoup5，bs4模块能从html或者xml中提取数据

我们对中国新闻网进行解析
在这里插入图片描述

for page in range(1, 11):
    print(f'第{page}页')
    URL = f'https://www.chinanews.com.cn/scroll-news/news{page}.html'

引入Headers

在日常爬网页的时候，为了不让网页发现我们在做爬虫操作，我们可以引入Headers，在我们要爬取的网页里可以找到Headers属性，这样网页会认为我们是正常浏览数据，就不容易被拒绝我们的爬虫申请。
在这里插入图片描述

	Headers = {
   
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'

最低0.47元/天解锁文章

优惠劵

KathAmy

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
学习 Python 的 Day14，BeautifulSpou4解析页面（爬虫）

BeautifulSpou4解析页面（爬虫）
复制链接

扫一扫

专栏目录

python爬虫学习笔记（二）——解析内容

01-20

– 获取到网页数据后，我们发现我们想要的信息隐藏在一堆无用信息之中，此时便需要解析网页数据的内容补充：在一些其他的教程中，发现也可以用urllib模块获取数据，urllib模块是python内置的一个http请求库，不需要...

BeautifulSoup解析html表格

guxue365的专栏

05-08

2531

用BeautifulSoup解析html表格 http://www.voidcn.com/article/p-eooarkay-wa.html for idx, tr in enumerate(soup.find_all('tr')): if idx != 0: tds = tr.find_all('td') data_list.append({ '船名': tds[0].contents[0], '航次': tds[...

参与评论您还未登录，请先登录后发表或查看评论

Beautifulsoup 网页表格的解析

数据科学汇集

04-27

1293

Beautifulsoup 网页表格的解析众所周知网页的表格标签里的文本需要按照表格的大小逐行逐列解析才能得到结构化的数据否则得到的内容则会错位。原始网页: 代码示例： if len(potentialtable) > 0: ##print(str(tableCont...

Python beautifulsoup4解析数据提取基本使用

EXIxiaozhou的博客

10-04

5345

Python beautifulsoup4解析数据提取基本使用

使用beautifulsoup解析网页爬取的表格信息

wyquin的博客

03-18

1万+

我们爬取百度百科上一首歌的获奖记录表格：格式如下：想要成 2015年3月30日-东方风云榜-动感101年度金曲-《匆匆那年》的统一格式，需要注意倒数两行的字段缺省情况。同样需要提取出缺省的字段。借助beautiful soup解析并提取。 import re from bs4 import BeautifulSoup def load_file(filepath...

Python 操作BeautifulSoup4(爬取网页信息)

感谢关注-最近在编写开源的自动化测试框架还没整理完

08-18

2641

BeautifulSoup 是一个库，可以很容易地从网页中抓取信息。它位于 HTML 或 XML 解析器之上，提供用于迭代、搜索和修改解析树的 Pythonic 习惯用法

Python爬虫beautifulsoup4常用的解析方法总结

09-19

今天小编就为大家分享一篇关于Python爬虫beautifulsoup4常用的解析方法总结，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧

Python爬虫解析网页的4种方式实例及原理解析

09-18

主要介绍了Python爬虫解析网页的4种方式实例及原理解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

2024.4.16 Python爬虫复习day04

最新发布

04-14

2024.4.16 Python爬虫复习day04

Python爬虫BS4库的解析器正确使用方法

12-21

Python爬虫——使用requests和beautifulsoup4库来爬取指定网页的信息

qq_54000767的博客

04-02

1897

Python爬虫——使用requests和beautifulsoup4库来爬取指定网页的信息

2021-08-28-CR-005 Python 爬虫-使用requests+BeautifulSoup4解析网页

Amoor的博客

08-28

213

使用requests库和BeautifulSoup4解析网页锁定的目标是精美图片的大图链接 #T1 from bs4 import BeautifulSoup as bs import requests html=requests.get('https://pic.netbian.com/4kdongwu/').text #T2 soup=bs(html,'lxml') # print(soup) xx=soup.div.next_siblings count=0 for i in xx:

Python+requests之beautifulsoup4解析html

SitVen

09-13

556

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库, 它能够通过你喜欢的转换器实现惯用的文档导航, 查找修改文档 html解析器下表列出了主要的html解析器，以及它们的优缺点解析器使用方法优势劣势 Python标准库 BeautifulSoup(markup,"html.parser") 1. Python的内置标准库 2. 执行速度适中 3. 文档容错能力...

使用 Python 的 requests 和 Beautiful Soup 来分析网页

Free雅轩的博客

07-14

701

浏览网页可能占了你一天中的大部分时间。然而，你总是需要手动浏览，这很讨厌，不是吗？你必须打开浏览器，然后访问一个网站，单击按钮，移动鼠标……相当费时费力。如果能够通过代码与互联网交互，岂不是更好吗？在 Python 的模块的帮助下，你可以使用 Python 从互联网中获取数据：在以上代码示例中，你首先导入了模块。接着，你创建了两个变量：其中一个叫做，它用来保存你要下载的 URL。在之后的代码中，你将能够在每次运行应用程序时提供不同的 URL。不过，就目前而言，最简单的方法是“硬编码”一个测试

网络爬虫——从网站中提取有用的数据

人邮异步社区

01-12

2223

本章我们将学习网络爬虫，其中包括学习Python中的BeautifulSoup库，它用于从网站中提取数据。本章包含以下主题。什么是网络爬虫。数据提取。从维基百科网站提取信息。 1　什么是网络爬虫网络爬虫是指从网站提取数据的技术，该技术可以将非结构化数据转换为结构化数据。网络爬虫的用途是从网站提取数据，提取的数据可以存储到本地文件并保存在系统中，也可以将其以表格的形式存储到数据库中。...

python scrapy框架基如何实现多线程_【转】爬虫的一般方法、异步、并发与框架scrapy的效率比较...

weixin_39625162的博客

11-26

759

问题的由来我们的需求为爬取红色框框内的名人（有500条记录，图片只展示了一部分）的名字以及其介绍，关于其介绍，点击该名人的名字即可，如下图：这就意味着我们需要爬取500个这样的页面，即500个HTTP请求（暂且这么认为吧），然后需要提取这些网页中的名字和描述，当然有些不是名人，也没有描述，我们可以跳过。最后，这些网页的网址在第一页中的名人后面可以找到，如George Washington的网页后...

用BeautifulSoup解析html表格

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交