展开全部
先说下基本原理和过程
原理:就是将可以打开的网页(这里不限制为网站,本地网62616964757a686964616fe78988e69d8331333337393636页文件也可以哦),加载到内存中,然后解析html,读取其中的文本内容或者储存到本地或者数据库中。
过程:
1、加载模块urllib,beautifulsoup。urllib提供网络服务解析,beautifullsoup提供对网页结构进行解析的功能。
2、加载网页
3、用beautifulsoup加载解析
下面给出实例:import urllib.request
from bs4 import BeautifulSoup
url="http://google.cn/"
response=urllib.request.urlopen(url) #返回文件对象
page=response.read()
#直接将URL保存为本地文件:
import urllib.request
url="http://www.xxxx.com/1.jpg"
urllib.request.urlretrieve(url,r"d:\temp\1.jpg")
#当然你可以将返回的对象交给soup处理
soup=BeautifulSoup(response)
#运行soup