python做简单爬虫的一些常用组件

文章目录

前言

最近一直在做零散的一次性的爬虫工作,基本都是用python开发的,整理一下python做小规模爬虫开发常用的一些工具类

request

python最简单的发http请求的包,request.get和request.post就可以搞定绝大部分的抓取需求了,postman也提供直接把请求转成request代码的功能
在这里插入图片描述

import requests

url = "https://www.who.int/publications/i/item/9789240087002"

payload = {}
headers = {
  'Cookie': '_cfuvid=ckXDZTR8JfnelALNiB3ROmqSzyj13jtX.4WlS8zKHSw-1722239912266-0.0.1.1-604800000'
}

response = requests.request("GET", url, headers=headers, data=payload)

print(response.text)

json

类似java里的fastjson包,可以把map对象和json字符串相互转换,转换方法为json.loads(把json字符串转成map对象)和json.dumps(把map对象转成json字符串)

import json
dict_test={"key":"这是一个测试map"}
text_test=json.dumps(dict_test,ensure_ascii=False)
print(text_test)
dict_test2=json.loads(text_test)
print(dict_test2)

在这里插入图片描述
注意json.dumps如果要转换中文的话加一个ensure_ascii=False,要不然结果就会是这样
在这里插入图片描述

bs4

bs4是一个做html和xml树解析的包,使用如下

from bs4 import BeautifulSoup
html=BeautifulSoup(response.text)
html.find_all("div",class_="")

直接构建一个BeatifulSoup对象之后用find函数就可以定位到对应元素(组)

Python常用组件包括以下几个方面: 1. 标准库:Python的标准库是一组已经写好的模块和函数,提供了一系列常用的功能,例如文件操作、网络通信、数据处理等。常见的标准库包括os、sys、re、datetime等。 2. 第三方库:Python拥有丰富的第三方库,可以通过pip等工具进行安装和使用。常用的第三方库包括numpy、pandas、matplotlib、requests等,用于数值计算、数据分析、图形绘制、网络请求等。 3. Web框架:Python有多种Web框架可供选择,用于开发Web应用程序。常用的Web框架包括Django、Flask、Pyramid等,它们提供了路由、模板、ORM等功能,简化了Web应用开发的过程。 4. 数据库连接库:Python提供了各种数据库连接库,用于连接和操作各种类型的数据库。常见的数据库连接库包括MySQLdb、psycopg2、pymysql等,用于连接MySQL、PostgreSQL、MySQL等数据库。 5. 数据处理库:Python在数据处理方面有很多强大的库,例如numpy、pandas和scikit-learn等。这些库提供了丰富的数据处理和分析工具,方便用户进行各种数据操作。 6. 图像处理库:Python有很多用于图像处理的库,例如Pillow、OpenCV和scikit-image等。这些库提供了各种图像处理功能,包括图像读取、图像增强、图像识别等。 7. 网络爬虫库:Python的网络爬虫库十分强大,例如Scrapy和BeautifulSoup等。这些库可以帮助用户快速获取互联网上的数据,方便数据挖掘和分析。 8. 自然语言处理库:Python有很多用于自然语言处理的库,例如NLTK和spaCy等。这些库提供了各种文本处理和语言分析的功能,方便用户进行文本挖掘和情感分析等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值