爬虫输出器
此输出器的主要作用是从经过筛选的下载中获取到对应的值,然后转化成你想要的文件形式来对你所需要的内容进行输出,你可以对其进行排版转化为html的table标签形式,这样一般会比较美观。
实现代码
#!/usr/bin/env python3
# -*- coding: UTF-8 -*-
__author__ = 'Gary'
# 输出器
class HtmlOutputer(object):
def __init__(self):
self.datas = []
def collect_data(self, data):
if data is None:
return
self.datas.append(data)
def output_html(self):
fout = open('output.html', 'w', encoding='utf-8')
fout.write("<html>")
fout.write("<body>")
#fout.write("<table>")
fout.write("<a>")
for data in self.datas:
# fout.write("<tr>")
# fout.write("<td>%s</td>" % data['url'])
# fout.write("<td>%s</td>" % data['title'])
# fout.write("<td>%s</td>" % data['summary'])
# fout.write("</tr>")
fout.write('<a href="%s">%s</a>' % (data['url'], data['title']))
fout.write('<p>%s</p>' % data['summary'])
fout.write("</a>")
#fout.write("</table>")
fout.write("</body>")
fout.write("</html>")
fout.close()
至此,我们的爬虫也就全部写完了,运行下看看吧。
看到如下继而成功
然后我们打开output.html文件
这样就说明你的爬虫已经成功,如果出现问题,你可以把主文件中的try-catch去掉,根据错误提示一步一步解决问题。
下面我将会用Scrapy框架来进一步熟悉爬虫,请关注后续文章或者关注我的Github https://github.com/Spacider/Spider