要把网页的内容提取到程序中,以便处理,只要通过模块requests就可以了。requests模块不是Python的默认模块,所以在使用它之前,需要在系统中执行安装"pip install requests"才可以导入到程序中。
示例:
import requests
url = 'http://www.moe.gov.cn/jyb_xxgk/'
#url='http://zfxxgk.ndrc.gov.cn/PublicGuideList.aspx'
src = requests.get(url)
src.encoding = 'utf-8'
#src.encoding = 'bgk'
html = src.text.splitlines()
for i in range(0,20):
print(html[i])
执行结果:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns&#