用Python编写简单的网络爬虫
今天看了菜鸟教程的Python教程,准备做个小作业写个爬虫程序。其中主要涉及到基本语法、正则表达式、urllib和re两个模块。
爬虫实现
1.获取网页
import urllib #加载模块
import re
def getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
html = getHtml("要爬取网页的URL")
print html
2.获取想要爬取的资源
def getImg(html):
reg = r'src="(.*?\.jpg)" '
imgre = re.compile(reg)
imglist = re.findall(imgre,html)
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl, '%s.jpg' %x)
x += 1
html = getHtml("要爬取网页的URL")
getImg(html)
文章参考了虫师的博客
一个不错的Python爬虫教程