pip install bs4 lxml
CSS选择器
1.节点选择须知 class属性用. id属性用#
2.获取了一个页面中所有的含有result和c-container class的标签
我们发现标签名是可省略的(在有class或者id的情况下)
获取属性的时候
可以像取得字典一样去直接拿
import requests # 导入网络请求模块
from bs4 import BeautifulSoup # 从bs4模块导入BeautifulSoup方法
headers={
'Cookie':'xxx',
'User-Agent':'xxx'
} # 定制请求头
url = 'https://www.baidu.com/s?wd=python' # 找到网址
html = requests.get(url,headers=headers) # get请求
html.encoding='utf-8' # 设置编码格式为'utf-8'
soup=BeautifulSoup(html.text,'lxml') # 解析网页文本
urls=soup.select('div.result.c-container h3 a') # 选取网页内容
for u in urls: # 遍历选取的网页内容
print(u['href']) # 输出某项属性的值
获取文本需要函数
text或者get_text()
import requests # 导入网络请求模块
from bs4 import BeautifulSoup # 从bs4模块导入BeautifulSoup方法
headers={
'Cookie':'xxx',
'User-Agent':'xxx'
} # 定制请求头
url = 'https://www.baidu.com/s?wd=python' # 找到网址
html = requests.get(url,headers=headers) # get请求
html.encoding='utf-8' # 设置编码格式为'utf-8'
soup=BeautifulSoup(html.text,'lxml') # 解析网页文本
urls=soup.select('div.result.c-container h3 a') # 选取网页内容
for u in urls: # 遍历选取的网页内容
print(u.text) # 获取文本