关于初学python的一点问题总结(三)
目录
首先说的
才发现一个问题,这几天的博客名称说的全是初学python,其实说来应该是爬虫才对。关于这个内容,其实《python网络数据采集》真是一本好书,在学习爬虫的过程中,这本书几乎有所有相关的内容。
今天的干货
接着上一次的内容,抓取漫画。上次抓取只是针对某一话进行抓取,这次的抓取,开始对整部漫画抓取。
依然是《钢炼》这部漫画,这次我们从头到尾抓下来!
抓取整部漫画,首先是找到他的目录页,针对这边漫画的目录页:目录 ,查看他的源码,结构简单清晰。在class=content
的div中很多的<a>
标签并且内容含有漫画的名称,根据这个规则,就可以抓取到每一话的URL,具体代码如下:
html=urlopen("http://manhua.fzdm.com/17/")
bsObj=BeautifulSoup(html.read(), "html.parser")
btnList=bsObj.find("div",{"id":"content"}).findAll("a",title=re.compile("^(这里写漫画名称)"))
然后写一个for循环遍历输出就得到了所有的URL
继承上个模块的内容,遍历抓取整部漫画就可以实现了。
具体代码就不再阐述。抓取结果如图: