Python Scrapy
文章平均质量分 50
老徐WEB
为人诚信开朗,勤奋务实,具有很强的领导组织能力和团队精神 ,专业理论知识丰富,基础扎实,善于思考,自学能力强 ,
创新和实践能力强, 热爱集体,能以大局为重,具有奉献精神。
QQ/VX:398911281
展开
-
爬虫框架scrapy - 豆瓣网上小说书单
我们可以利用Python库Requests,selenium,可能还要结合threading,multiprocessing来写爬虫,多数情况是满足需求的。但写多了,会发现其中的某些代码,或者组件是可以复用的。把这些代码抽取出来,形成模块,这就是简单的构架了。然后再规范化,慢慢就形成框架了。 框架的好处是我们不用太关心具体功能的实现,只关注功能的逻辑。有了框架,可以简化代码量,提高工作效率。 ...原创 2018-07-25 18:06:58 · 732 阅读 · 0 评论 -
Scrapy 实例 - 豆瓣网 书单数据存储 CSV文件
怎么从网页里取数据请查看。 这次介绍把数据存储到CSV文件里。 一、修改items.py文件 把需要获取的数据定义在这里,增加两行。 class DoubanxsItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy....原创 2018-07-25 19:30:03 · 501 阅读 · 0 评论 -
Scrapy 实例 - 豆瓣网书单数据存储 JSON文件
结合前面两个文章,又整理了存储成JSON文件的内容,其实很简单。 1.初试Scrapy,2.存储CSV文件。 一、修改pipelines.py文件 完整代码如下: import json # 加载模块 class DoubanxsPipeline(object): #def process_item(self, item, spider): #return it...原创 2018-07-25 20:30:52 · 287 阅读 · 0 评论 -
Scrapy 实例 - 豆瓣网书单数据存储 MySQL数据库
前面写了初试Scrapy,数据存入CSV,数据存入JSON文章。 这次整理一下数据存入MySQL数据库,整理了两个写法。 一、 1.修改pipelines.py文件, 新创建一个MysqlPipeline类,用于存储数据到数据库。 import pymysql MY_HOST = 'xx' MY_USER = 'xx' MY_PASSWD = 'xx' MY_DB = 'xx' MY_...原创 2018-07-26 17:23:44 · 209 阅读 · 0 评论 -
Scrapy 存入CSV文件时,多空行
用Scrapy存入CSV文件时,发现数据间隔有空行,在网上找了解决方法。 意思是打开scrapy/exporters.py文件,找到CsvItemExporter类,在io.TextIOWrapper函数的参数里增加参数 newline=''。 self.stream = io.TextIOWrapper( file, line_bufferi...原创 2018-07-27 12:06:20 · 899 阅读 · 0 评论