静态网页爬虫教程（2）链接和标题的提取

最新推荐文章于 2024-01-08 09:42:17 发布

ryo007gnnu

最新推荐文章于 2024-01-08 09:42:17 发布

阅读量3.4k

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/ryo007gnnu/article/details/109008086

版权

初战告捷，我们继续下一步，来获取网页中的标题和超链接。
观察一下，第一篇文章是这样的：
在这里插入图片描述
这篇文章的标题和超链接信息在我们返回的文本中是这样的：

上面的表示是超链接的内容，而下面的则是表示是标题大小为4号字体，注意它们的标签。
这个网站比较简单，它的文章标题直接用"<h4>“括起来了，所以直接用”<h4>"就可以搜索到所有标题；但链接就不行，因为<a>出现的地方比较多，不是所有的链接都是我们需要的，所以要另外处理。
从返回的文本中提取内容可以使用正则表达式，需要引入re包，利用findall函数来查找匹配的内容。
先提取这一页所有的文章标题，我们采用非贪婪匹配：

#引入requests包
import requests
#设定我们要爬取的内容，全部是企业环境信息披露下的文章，先找到其中第一篇文章
url=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

ryo007gnnu

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python爬虫实例100例-Python爬虫实例

q6q6q的专栏

10-28

8750

基本GET请求1. 最基本的GET请求可以直接用get方法response = requests.get("http://www.baidu.com/")2. 添加 headers 和查询参数如果想添加 headers，可以传入headers参数来增加请求头中的headers信息。如果要将参数放在url中传递，可以利用 params 参数。kw = {'wd':'长城'}he...

肝了N小时，整理了100+Python爬虫项目

weixin_68056852的博客

09-14

1759

总结了很多有关于python面试的资料，希望能够帮助正在学习python的小伙伴。由于资料过多不便发表文章，创作不易，望小伙伴们能够给我一些动力继续创建更好的python类学习资料文章，提到爬虫，相信绝大部分人的第一反应就是 Python，尽管其他编程语言一样能写爬虫，但在人们的印象中，爬虫似乎与 Python 绑定了一样，由此可见爬虫在 Python 中的份量。最近小二做了个免费的 Python 爬虫项目库，目前初步已经收录了 100+ Python 爬虫项目。

参与评论您还未登录，请先登录后发表或查看评论

Python获取当前页面内的所有链接的五种方法

Waspvae的博客

06-19

1万+

本文讲述了 Python 获取当前页面内的所有链接的五种方法,分享给大家仅供参考,具体如下: # 利用 requests_html from requests_html import HTMLSession session = HTMLSession() url = 'https://www.baidu.com' r = session.get(url) print(r.html.links...

python入门经典100例-【python】编程语言入门经典100例--3

q6q6q的专栏

10-28

489

1 #题目：一个整数，它加上100后是一个完全平方数，再加上168又是一个完全平方数，请问该数是多少？代码：2 i = 03 j = 04 while (i >= 0):5 m = i*i6 while (j*j = 0): #完全平方数是大于0的，这个条件原则上是一直成立并且执行的5 m = i*i # 从0开始（i=0）计算出i的完全平方数为m6 w...

100个Python爬虫实例

m0_59236602的博客

01-08

1813

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。小伙伴们，这次我来给大家分享100个超实用的爬虫实战案例！

静态网页爬虫教程（3）文本的提取和保存

ryo007gnnu的博客

10-12

840

前面我们已经把文章的标题和超链接都提取出来了，看上去我们已经有能力把这些文章的内容全部提取出来了。但路要一步一步走，饭要一口一口吃，我们还是先来看一篇文章的内容是怎么提取和保存的吧。 ...

静态网页爬虫教程（5）带翻页的多篇文章内容提取和保存

ryo007gnnu的博客

10-12

2280

这是我们静态页面爬取的最后一篇了，主要针对的问题是翻页爬取。

Python爬虫示例代码，使用Selenium和BeautifulSoup处理静态网页.txt

08-17

这里提取了页面的标题（`title`）以及所有的链接文本（`links`）。其中`soup.title.string`获取的是`<title>`标签内的文本内容；`soup.find_all('a')`则返回页面中所有的`<a>`标签，`link.text`则是提取每个`<a>`...

python爬虫scrapy爬取新闻标题及链接_18Python爬虫---CrawlSpider自动爬取新浪新闻网页标题和链接...

weixin_42321496的博客

02-21

1327

一、爬取新浪新闻思路1、创建scrapy项目2、分析新浪新闻网站静态页面代码3、编写对应的xpath公式4、写代码二、项目代码步骤1、创建scrapy项目scrapy startproject mycwpjt步骤2、分析新浪网站静态代码随便打开一个新浪新闻网，新闻可以看到地址为http://news.sina.com.cn/gov/xlxw/2018-03-21/doc-ifyskeue0491...

python爬虫100例教程 python爬虫实例100例子

m0_67403240的博客

08-02

4806

response=requests.get(“http//www.ikshuju.cn”,headers=headers)#get方法访问,传入headers参数，response=requests.get(“https//www.baidu.com/img/baidu_jgylogo3.gif”)#get方法的到图片响应。response=requests.get(“http//httpbin.org/get”,params=data)#get传参。...

python爬虫编程100例_python核心编程中网络爬虫的例子

weixin_39737317的博客

11-20

303

1 #!/usr/bin/env python23 import cStringIO #4 import formatter #5 from htmllib import HTMLParser #We use various classes in these modules for parsing HTML...

python爬虫实例100例-用案例让你一文搞懂python网络爬虫

q6q6q的专栏

10-28

2903

声明：本文来自于微信公众号数据EDTA(ID：livandata)，作者： livan，授权站长之家转载发布。很久以前写了一篇爬虫的文章，把它放在CSDN上(livan1234)没想到点击量竟然暴涨，足以看到大家在数据获取方面的需求，爬虫技术现在已经非常普遍，其用途也非常广泛，很多牛人在各个领域做过相关的尝试，比如：1)爬取汽车之家数据，利用论坛发言的抓取以及NLP，对各种车型的车主做画像。2...

Python爬虫项目100例

一名正义的白帽黑客

12-09

5317

Python爬虫项目100例

Python爬虫项目100例，练完你的爬虫技术就牛了！！！

隔壁王叔的博客

06-12

3231

Python爬虫项目100例，练完你的爬虫技术就牛了！！！

python爬虫100例之001

weixin_53923932的博客

02-15

655

简单爬虫小案例

Python爬虫项目100例，零基础自学必备

xx132456的博客

04-26

2133

Python爬虫项目100例，零基础自学必备

Python爬虫案例练习100+更新中⭐常见案例⭐

最新发布

03-14

### 如何构建静态网页爬虫 #### 静态网页爬虫基础知识静态网页是指页面上的内容不会因用户的交互而改变，其HTML结构可以直接由服务器返回给客户端。因此，对于这类网站，可以通过发送HTTP请求并解析响应的内容来提取所需的数据[^1]。 #### 使用Python进行静态网页爬虫的构建 Python提供了多种库用于构建静态网页爬虫，其中最常用的是`requests`和`BeautifulSoup`组合。以下是具体的方法： - **Requests库**: 这是一个简单易用的HTTP库，用来向目标网站发起GET/POST请求，并获取相应的HTML文档。 ```python import requests url = 'http://example.com' response = requests.get(url) html_content = response.text ``` - **BeautifulSoup库**: BeautifulSoup是专门设计用来从HTML或XML文件中提取数据的一个库。它能创建一个解析树，从而方便地查找、导航以及修改HTML标签[^3]。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') titles = soup.find_all('h1') # 查找所有的<h1>标签 for title in titles: print(title.text.strip()) ``` 以上代码片段展示了如何利用这两个库抓取网页中的标题信息。 #### 处理分页和其他复杂情况当面对多页或者更复杂的网站布局时，可能还需要考虑额外的因素，比如URL参数的变化规律、翻页按钮的选择器路径等。这通常涉及到编写循环逻辑以遍历每一页链接，并重复执行上述过程。 #### 合法性和道德规范无论何时开展任何形式的数据收集活动之前，请务必确认自己已经了解并且遵循了目标站点的服务条款及相关法律法规。只有这样才能够保证整个操作流程既合法又合乎伦理标准。 ```python import time from random import randint for page_num in range(1, total_pages + 1): current_url = base_url.format(page=page_num) resp = requests.get(current_url) parse_and_save_data(resp.content) sleep_time = randint(1, 5) # 设置随机等待时间防止被封禁IP地址 time.sleep(sleep_time) ``` 此脚本示范了一个简单的分页处理方式，同时加入了合理的延迟间隔以防过频访问引起对方反感甚至封锁我们的IP地址。 ---