python网络小爬虫的编写

最新推荐文章于 2022-01-07 22:23:45 发布

木锦：JUESHIZIYE

最新推荐文章于 2022-01-07 22:23:45 发布

阅读量1.5k

点赞数

分类专栏： python网络爬虫文章标签： python网络爬虫

本文链接：https://blog.csdn.net/YEDITABA/article/details/78186282

版权

python网络爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

经过几天的自学python后，对python也算有了一定的了解，

然后对着网上的学习教程跟着编写了一个能爬百度百科的爬虫程序，从听不太懂到听懂写出来也花费了时间和努力，这里把我写的代码贴出来，希望能对大家有所帮助

笔者是用python3的环境写的，与教程里面的python2环境的代码有点区别，

已经亲自测试可行

首先用python3的IDLE新建所需要的文件，分别是main()函数调度端，url管理器，网页下载器，网页分析器，数据输出器这几个模块文件：

下面贴出代码：

spider_main模块：

import url_manager
import html_downloader
import html_parser
import html_outputer

class SpiderMain(object):
def __init__(self):
self.urls = url_manager.UrlManager()
self.downloader = html_downloader.HtmlDownloader()
self.parser = html_parser.HtmlParser()
self.outputer = html_outputer.HtmlOutputer()

def craw(self,root_url):
count = 0
self.urls.add_new_url(root_url)
while self.urls.has_new_url():
try:

if count == 5:
break
count = count + 1

new_url = self.urls.get_new_url()
print("craw %d:%s" %(count,new_url))
html_cont = self.downloader.download(new_url)
new_urls,new_data = self.parser.parse(new_url,html_cont)
#print(new_data)
self.urls.add_new_urls(new_urls)
self.outputer.collect_data(new_data)

#print (count)

except:
print("craw failed")
self.outputer.output_html()

if __name__=="__main__":
root_url = "https://baike.baidu.com/item/Python/407313?fr=aladdin"
obj_spider = SpiderMain()
obj_spider.craw(root_url)