python自动化--爬虫简单应用

最新推荐文章于 2024-06-19 17:27:45 发布

love1005lin

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量290

点赞数 1

分类专栏：工具文章标签：爬虫自动化

本文链接：https://blog.csdn.net/love1005lin/article/details/118253808

版权

工具专栏收录该内容

14 篇文章 2 订阅

订阅专栏

爬虫常见Python库

Requests:

安装:

pip install requests
或者conda安装
conda install requests

re.status_code 响应的HTTP状态码
re.text 响应内容的字符串形式(返回的是服务器响应内容的字符串形式，也就是文本内容)
rs.content 响应内容的二进制形式(用于图片、视频、音频等内容的获取、下载)
rs.encoding 响应内容的编码 (爬取内容的编码形似，常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不同的方式去解码，我们就会得到一些乱码)

爬取一张图片并且保存下来：

import requests
# 发出http请求
#下载图片
res=requests.get('https://img-blog.csdnimg.cn/20210424184053989.PNG')
# 以二进制写入的方式打开一个名为 info.jpg 的文件
with open('datawhale.png','wb') as ff:
    # 将数据的二进制形式写入文件中
    ff.write(res.content)

BeautifulSoup：

安装：

pip install bs4
或
conda install bs4

爬取豆瓣图书：

import io
import sys
import requests
from bs4 import BeautifulSoup
###运行出现乱码时可以修改编码方式
#sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
###
headers = {
  'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'
}
res = requests.get('https://book.douban.com/top250', headers=headers)
soup = BeautifulSoup(res.text, 'lxml')
print(soup)

python 打印信息时会有限制我们将打印的编码改成gb18030

headers表示我们的请求网页的头，对于没有headers的请求可能会被服务器判定为爬虫而拒绝提供服务

通过 from bs4 import BeautifulSoup 语句导入 BeautifulSoup

然后使用 BeautifulSoup(res.text, lxmlr’) 语句将网页源代码的字符串形式解析成了 BeautifulSoup 对象

解析成了 BeautifulSoup 对象可以较为方便的提取我们需要的信息

那么如何提取信息呢？

BeautifulSoup 为我们提供了一些方法

find()方法和find_all()方法：

find() 返回符合条件的首个数据

find_all() 返回符合条件的所有**数据

love1005lin

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python自动化--爬虫简单应用

爬虫常见Python库Requests:安装:pip install requests或者conda安装conda install requestsre.status_code 响应的HTTP状态码re.text 响应内容的字符串形式(返回的是服务器响应内容的字符串形式，也就是文本内容)rs.content 响应内容的二进制形式(用于图片、视频、音频等内容的获取、下载)rs.encoding 响应内容的编码 (爬取内容的编码形似，常见的编码方式有 ASCII、GBK、UTF-8
复制链接

扫一扫