Python 爬虫入门 requests lxml bs4

最新推荐文章于 2022-10-18 23:59:23 发布

jomes_wang

最新推荐文章于 2022-10-18 23:59:23 发布

阅读量311

点赞数 1

文章标签： python java js xpath html

本文链接：https://blog.csdn.net/jomes_wang/article/details/111628310

版权

这篇博客记录了作者初次学习爬虫的体验，通过Python的requests库获取HTML代码，并对比介绍了使用BeautifulSoup和lxml解析HTML的方法，推荐使用lxml因其速度更快。在解析过程中，提到了XPath的使用技巧，以及遇到的问题和解决办法，强调了爬虫学习需要多实践和熟悉常见问题。

摘要由CSDN通过智能技术生成

一：前言

正式学习爬虫的第一天，感觉信息量巨大。用此篇博客来快速入门爬虫并爬取古诗文网的内容。(使用 requests lxml bs4)

二：过程

2.1 获取 url 中的 html 代码

中文官方文档指引(http://docs.python-requests.org/zh_CN/latest/user/quickstart.html)，内容繁琐比较多，本文精简整理必要内容。

先安装requests

pip install requests

在文档中引入

import requests

# url 是古诗文网的
url = 'https://so.gushiwen.org/guwen/Default.aspx?p=1&type=%e6%ad%a3%e5%8f%b2%

最低0.47元/天解锁文章

jomes_wang

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值