#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
urllib 获取服务器资源
重要的组件有:
import urllib.request # url的请求包
import urllib.parse # url的解析包
需求:
自定义爬虫,获取百度首页的资源
"""
## Python3.x版本的标准写法:
import urllib.request
import urllib.parse
# 自定义百度的url
from bs4 import BeautifulSoup
url = "http://www.baidu.com"
# 向url发起请求,得到返回值对象
# [调用请求方法中的urlopen方法,进入到指定的url中]
request = urllib.request.urlopen(url)
# 判断请求的状态:
if request.status != 200:
print("访问失败")
else:
print("访问成功")
# 访问成功后,获取数据,read()读取数据,decode()指定读取的字符编码
data = request.read().decode("utf-8")
# print(data)
# 导包调用第三方软件 bs4 包中的BeautifulSoup,对数据进行格式化输出
# BeautifulSoup是一个对网址URL,html等数据的进行格式化的一个方法
soup = BeautifulSoup(data,features="html.parser")
# 调用 工具方法的.title 方法,只打印该页面的抬头,并转为string类型
print(soup.title.string)
6---Python之爬虫入门练习
最新推荐文章于 2024-07-31 17:05:31 发布