例如,我们编写爬虫从豆瓣网爬取了一些书籍的信息,以csv数据格式存储:
书名, 作者, 出版社, 价格
精通scrapy网络爬虫, 刘硕, 清华大学出版社, 46.00
算法导论, Charles E.Leiserson, 人民邮电出版社, 85.00
Python灰帽子, Justin Seitz, 电子工业出版社, 39.00
...
要求:请将书价格高于80.00的书记录存储到另一csv文件中。
解决方案:
标准库中的csv模块,使用其中reader和writer完成csv文件读写。
- 对于
csv.reader()
:
csv_reader = reader(iterable [, dialect='excel']
[optional keyword args])
传入一个文件对象,返回一个迭代器,迭代器的每个迭代读取CSV文件(它可以跨多个输入行)的一行内容。
>>> import csv
>>> rf = open('books.csv')
>>> reader = csv.reader(rf, delimiter=','