北理慕课——python网络爬虫之提取

本文介绍了Python的Beautiful Soup库在HTML解析中的应用,包括库的引用、基本元素、HTML内容遍历方法以及如何进行HTML格式输出。此外,还探讨了信息标记的三种形式——XML、JSON、YAML,并详细讲解了信息提取的方法,如使用Beautiful Soup进行内容查找。
摘要由CSDN通过智能技术生成

1. Beautiful Soup库入门

Beautiful Soup库是解析、遍历、维护“标签树”的功能库

Beautiful Soup库的引用:

Beautiful Soup库,也叫beautifulsoup4 或 bs4约定引用方式如下,即主要是用BeautifulSoup类

from bs4 import BeautifulSoup

import bs4

BeautifulSoup类:

BeautifulSoup对应一个HTML/XML文档的全部内容

Beautiful Soup库解析器:

soup = BeautifulSoup('<html>data</html>','html.parser')

BeautifulSoup类的基本元素  < p class = " title " > ... </p>

Tag 标签:任何存在于HTML语法中的标签都可以用soup.<tag>访问获得

当HTML文档中存在多个相同<tag>对应内容时,soup.<tag>返回第一个

每个<tag>都有自己的名字,通过<t

### Python 网络爬虫与正则表达式在工大学场景下的应用 #### 使用Python进行网络爬虫和信息提取的重要性 对于工大学这样的学术机构而言,利用Python编写网络爬虫可以有效地收集公开发布的科研成果、程资料以及其他教育资源。这不仅有助于提高研究效率,还能促进校内外之间的资源共享和技术交流。 #### 正则表达式的角色 在网络爬虫的数据清洗与处阶段,正则表达式扮演着不可或缺的角色[^2]。借助于`re`模块所提供的功能,可以从网页源码中精准定位并抽取特定模式的内容,比如论文标题、作者姓名或是发表日期等重要字段。 #### 实际案例分析——以工官网为例 假设目标是从工大学官方网站获取最新的新闻公告列表: 1. **导入必要的** 需要先安装并引入几个常用的第三方包来辅助完成整个过程。 ```python import requests from bs4 import BeautifulSoup as soup import re ``` 2. **发送HTTP请求访问网站主页** 利用`requests.get()`方法向指定URL发起GET请求,并保存响应体至变量response内。 ```python url = "https://www.bit.edu.cn" headers = {'User-Agent': 'Mozilla/5.0'} response = requests.get(url, headers=headers) html_content = response.text ``` 3. **解析HTML文档结构** 创建BeautifulSoup对象以便后续操作更加便捷直观。 ```python page_soup = soup(html_content,"lxml") ``` 4. **定义匹配规则并通过正则表达式筛选有效条目** 这里采用了一个简单的例子说明如何运用正则表达式查找所有包含“通知”二字的通知链接。 ```python pattern = r'[\u4e00-\u9fa5]*通知' links = page_soup.find_all('a', href=True, text=re.compile(pattern)) for link in links: print(link['href']) ``` 上述代码片段实现了基本的功能框架,在此基础上还可以进一步优化和完善,例如增加异常捕获机制确保程序稳定性;调整搜索范围仅限于某些特定区域内的标签元素等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值