学习笔记：网络机器人2.1BeautifulSoup解析

最新推荐文章于 2024-04-12 13:16:11 发布

Python学习中的进阶者

最新推荐文章于 2024-04-12 13:16:11 发布

阅读量143

点赞数

分类专栏： Python职场实用技能文章标签： python

本文链接：https://blog.csdn.net/weixin_42850424/article/details/105751090

版权

Python职场实用技能专栏收录该内容

46 篇文章 11 订阅

订阅专栏

pip install bs4 lxml
CSS选择器
1.节点选择须知 class属性用. id属性用#
2.获取了一个页面中所有的含有result和c-container class的标签
我们发现标签名是可省略的（在有class或者id的情况下）

获取属性的时候
可以像取得字典一样去直接拿

import requests   # 导入网络请求模块
from bs4 import BeautifulSoup  # 从bs4模块导入BeautifulSoup方法

headers={
    'Cookie':'xxx',
    'User-Agent':'xxx'
}   # 定制请求头
url = 'https://www.baidu.com/s?wd=python'  # 找到网址
html = requests.get(url,headers=headers)   # get请求
html.encoding='utf-8'  # 设置编码格式为'utf-8'
soup=BeautifulSoup(html.text,'lxml')   # 解析网页文本
urls=soup.select('div.result.c-container h3 a')  # 选取网页内容
for u in urls:  # 遍历选取的网页内容
    print(u['href'])  # 输出某项属性的值

获取文本需要函数
text或者get_text()

import requests   # 导入网络请求模块
from bs4 import BeautifulSoup  # 从bs4模块导入BeautifulSoup方法

headers={
    'Cookie':'xxx',
    'User-Agent':'xxx'
}   # 定制请求头
url = 'https://www.baidu.com/s?wd=python'  # 找到网址
html = requests.get(url,headers=headers)   # get请求
html.encoding='utf-8'  # 设置编码格式为'utf-8'
soup=BeautifulSoup(html.text,'lxml')   # 解析网页文本
urls=soup.select('div.result.c-container h3 a')  # 选取网页内容
for u in urls:  # 遍历选取的网页内容
    print(u.text)  # 获取文本

Python学习中的进阶者

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习笔记：网络机器人2.1BeautifulSoup解析

import requestsfrom bs4 import BeautifulSoupheaders={ 'Cookie':'xxx', 'User-Agent':'xxx'}url = 'https://www.baidu.com/s?wd=python'html = requests.get(url,headers=headers)html.encoding='...
复制链接

扫一扫

专栏目录