关于初学python的一点问题总结（二）

最新推荐文章于 2024-10-18 00:00:00 发布

果子Leeeee

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量305

点赞数 1

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/l33364/article/details/62446851

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

关于初学python的一点问题总结（二）

总结

今天爬取的页面不是昨天的百度百科，今天尝试对漫画网站的图片进行抓取，在钢之炼金术师这本漫画的第一话尝试进行抓取。

步骤

首先是分析页面的元素块，在页面中，发现所看的漫画的图片元素都是img标签，并且其中都含有id=mhpic 这下子就很好办了。跳转到img 标签里面的src属性所指向的URL可以发现的确是我们需要的图片。
先尝试抓取一个页面的图片的URL。具体代码如下：

def getimgurl(url):
    html=urlopen(url)
    bsObj=BeautifulSoup(html.read(),"html.parser")
    imgs= bsObj.findAll('img',id="mhpic")
    for img in imgs:
        print("getImgURL: "+img['src'])
        return img['src']

在拿到图片的URL之后，如何下载到本地呢，查了一下其他相关博客，发现在库里面有一个很关键的方法：

urllib.request.urlretrieve(imgurl,'%s.jpg' % i)

简直完美！
这下子图片就下载到本地了，存储路径可以自己写，具体参考urlretrieve() 方法，这里就不做说明。

抓一话来试试

获取和下载图片没问题了之后，就开始找<a>标签，准备开始跳转了。
参考页面发现“下一页”也有一个特殊的id=mhona,然而整个页面中，除了”下一页”,“上一页”也有这个id，这个时候，通过一点小技巧来获取“下一页”，代码如下：

def nextpage(url):
    html=urlopen(url)
    bsObj=BeautifulSoup(html.read(),"html.parser")
    anexts=bsObj.findAll('a',id="mhona")
    print(url)
    for anext in anexts:
        if(anext.get_text()=="下一页"):
            print("nextPage: "+anext.attrs['href'])
            return "http://manhua.fzdm.com/17/001/"+anext.attrs['href']