爬虫爬取网页

最新推荐文章于 2024-04-02 10:14:05 发布

今天吃十根烤肠

最新推荐文章于 2024-04-02 10:14:05 发布

阅读量329

点赞数

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_62965858/article/details/122155546

版权

本文介绍了Python爬虫的基础知识，包括使用jieba库进行中文分词，利用BeautifulSoup4解析HTML内容，以及通过Requests库获取网页资源。文中详细讲解了如何配置环境，导入库，创建对象，以及处理网页编码问题，最后展示了爬取成功的实例。

摘要由CSDN通过智能技术生成

这里我用了最简单的百度为例：

首先我们需要安装第三方库

（1）jieba库：安装：pip install jieba

       jieba.lcut(s):分割中文词语
   （2）beautifulsoup4库：
       安装：pip install bs4

我的设备已经配置好了环境：

常用导入方法：
导入库：form bs4 import BeautifulSoup4

           创建对象：soup=BeautifulSoup（文本/网页内容，‘html.parser’）

           输出网页代码：print（soup.prettify（））
   （3）requests库：
       方法：r=requests.get('url'):请求获取资源对象，并且返回
       requests.request(代码标签)：构造请求
       requests.head（）：获取网页头信息

最低0.47元/天解锁文章

今天吃十根烤肠

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫爬取网页

这里我用了最简单的百度为例：首先我们需要安装第三方库（1）jieba库：安装：pip install jieba jieba.lcut(s):分割中文词语（2）beautifulsoup4库：安装：pip install bs4我的设备已经配置好了环境：常用导入方法：导入库：form bs4 import BeautifulSoup4 创建对象：soup...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。