python 爬虫中文乱码

最新推荐文章于 2024-01-25 11:56:25 发布

watermelon_lily

最新推荐文章于 2024-01-25 11:56:25 发布

阅读量182

点赞数

文章标签： python xpath

本文链接：https://blog.csdn.net/watermelon_lily/article/details/112778152

版权

使用requests

import requests
import chardet
from lxml import etree
from bs4 import BeautifulSoup

res = requests.get("要爬取的网页")
#chardet 自动检测字符的编码
res.encoding = chardet.detect(res.content)['encoding']

html = etree.HTML(res.text)
prefix = '网址的前缀'

#根据网页源码中的路径找到需要的结果
links = html.xpath('//div[@class="mod-news-3"]/ul/li/a/@href')

#获得网页源码中的链接
item = {}
for i in range(len(links)):
    url = links[i][1:]
    url = prefix+str(url)
    item[i] = url

使用 BeautifulSoup

from bs4 import BeautifulSoup
import requests


url = '要爬的网页'
r = requests.get(url)
r.encoding='UTF-8' #此处改为网页源码的编码格式，解决中文乱码
demo = r.text  # 服务器返回响应
soup = BeautifulSoup(demo, "html.parser")
"""
demo 表示被解析的html格式的内容
html.parser表示解析用的解析器
"""
print(soup)  # 输出响应的html对象
print(soup.prettify())  # 使用prettify()格式化显示输出
print(soup.title)  # 获取html的title标签的信息
print(soup.a)  # 获取html的a标签的信息(soup.a默认获取第一个a标签，想获取全部就用for循环去遍历)
print(soup.a.name)   # 获取a标签的名字
print(soup.a.parent.name)   # a标签的父标签(上一级标签)的名字
print(soup.a.parent.parent.name)  # a标签的父标签的父标签的名字

watermelon_lily

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
python 爬虫中文乱码

使用requestsimport requestsimport chardetfrom lxml import etreefrom bs4 import BeautifulSoupres = requests.get("要爬取的网页")res.encoding = chardet.detect(res.content)['encoding']html = etree.HTML(res.text)prefix = '网址的前缀'#根据网页源码中的路径找到需要的结果links = ht
复制链接

扫一扫