[python]html.parser + Beautifulsoup+GBK编码

最新推荐文章于 2023-05-23 22:08:32 发布

vcvycy

最新推荐文章于 2023-05-23 22:08:32 发布

阅读量2.1k

点赞数 1

本文链接：https://blog.csdn.net/vcvycy/article/details/78401927

版权

本文介绍了使用Python的Beautifulsoup库进行HTML解析，并详细讲述了如何处理GBK编码的网页。内容包括Beautifulsoup的导入、初始化，以及find和find_all方法的使用。同时，针对遇到的GBK编码网站，讨论了如何进行有效处理。

摘要由CSDN通过智能技术生成

一、HTML解析：Beautifulsoup

1、import

from bs4 import BeautifulSoup

2、初始化

soup=BeautifulSoup(HTMLText,"html.parser")

3、find和find_all

#find_all返回一个bs4.element.Tag对象数组
#find返回bs4.element.Tag对象。
#查找所有div标签
divs=soup.find_all("div")
#查找某个attr（如id）
x=soup.find_all(attrs={"id":"myId"})[0]
x=soup.find(attrs={"id":"myId"})[0]

4、获取属性值或者innerHTML

#属性值读取
attrVal=soup.get("attrName")
#InnerHtml读取
text=soup.get_text()

二、HTML转移符处理：html.parser

import requests
import sys
import os
from bs4 i

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

vcvycy

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
[python]html.parser + Beautifulsoup+GBK编码

一、HTML解析：Beautifulsoup二、HTML转移符处理：html.parserimport requestsimport sysimport osfrom bs4 import BeautifulSoupimport urllibfrom urllib import parse,request import html data="""一、填空题1、D 
复制链接

扫一扫