python 简单模拟网站访问及数据解析

本文介绍了使用Python进行网页解析,对比了不同解析工具的性能,重点展示了BeautifulSoup4的实例,通过一个龙岗房地产爬虫项目,详细讲解了如何抓取网页上的楼房信息,包括地址、详情链接、房型等,并将数据存储为Excel文件。
摘要由CSDN通过智能技术生成

解析网页技术

模块名 技术 特点
re模块 正则表达式

* 基于文本的特征来匹配或查找指定数据

*可以处理任何格式的字符串文档,类似于模糊匹配的效果

lxml模块beautifulsoup4 XPath和Beautiful Soup

 基于HTML/XML文档的层次结构来确定达到指定节点的路径

 更适合处理层级比较明显的数据

json模块 JSONPath 用于JSON文档的数据解析

解析工具的性能比较

抓取工具 速度 使用难度 安装难度
re 最快 困难 无(内置)
lxml 简单 一般
beautifulsoup4 最简单 简单

re模块实例有时间再补上:
代补

beautifulsoup4的实例:

import requests
from bs4 import BeautifulSoup
base_url = 'https://www.baidu.com'
res = requests.get(base_url) # 发送 GET 请求
res.encoding = 'utf-8'
# 创建 BeautifulSoup类对象
soup = BeautifulSoup(res.text, 'lxml')
# 查找所有 <a> 标签
a_all = soup.find_all('a')
print(' 查找所有 <a> 标签:\n{}'.format(a_all))
# 查找 href="http://v.baidu.com" 的<a> 标签
a_attrs = soup.find_all('a', attrs={
   'href':'http://v.baidu.com'} )
print(' 查找指定属性的<a> 标签:\n{}'.
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值