第三方库学习笔记

最新推荐文章于 2023-11-18 20:57:43 发布

CharlesDW

最新推荐文章于 2023-11-18 20:57:43 发布

阅读量102

点赞数

文章标签： python

本文链接：https://blog.csdn.net/CharlesDW/article/details/122352791

版权

第三方库
（1）jieba库：
jieba.lcut（s）：分割中文词
（2）beautifulsoup4库
安装：pip install bs4/beautifulsoup4
常用导入方法：
导入库：from bs4 import BeautifulSoup
创建对象：soup=BeautifulSoup（文本/网页内容，'html.parser'）
输入网页代码：print（soup.prettify()）
（3）requests库:
安装：pip install requests
方法：
r=requests.get('url'):发送请求获取资源对象，并且返回资源对象
requests.request（代码标签）：构造请求
requests.head（）：获取网页头信息
注意：如果访问失败
r.requests.headers:查找本网页的用户代理
网络爬虫步骤：
import requests：打入库
r.requests.get('url'):发送并返回请求资源对象
print（r.status_code）:查看状态码（是否发送成功）
r.encoding:查看网页编码
r.apparent_encoding:根据网页内容评价的备用编码
r.txt:查看整个网页内容
r.encoding=r.apparent_encoding:将备用编码替换头编码
r.text[-500]
r.text[:1000]