看书,怎么能充钱呢!
看了爆肝机油的文章,简直是视觉上的冲击与享受,忍不住搞了一波Python---scrapy爬取数据
scrapy 先看中文教程,再看下文源码,不看我也不能打你
scrapy1.5中文文档 是中文的哦 看了不吃亏,看了不上当,爬本小说看看,为啥不在网页看,引用机油的话“---浏览器上下部分都被什么 美女荷官在线发牌,一夜不射提升半小时之类你懂的画面遮盖了,还经常误触,如果是在电脑上看,我们可以用ADBLOCK之类的广告插件屏蔽,可是手机浏览器貌似没有插件啊,那怎么办呢?我可是程序员啊,程序员怎么能向这种问题低头呢?----”
几个常用的scrapy命令
"""
python 命令:
#scrapy startproject 项目名 例:
scrapy startproject mingyan
cd 到项目里
#验证scrapy到底有木有提取到数据的工具
scrapy shell http://lab.scrapyd.cn
#scrapy crawl name里的内容 例:
scrapy crawl mingyan
#要爬取标签:励志
scrapy crawl mingyan -a tag=励志
"""
scrapy很牛逼,基本神马都能爬,(听说东京很热)……这里就不翻译了,直接上代码
import scrapy
class fiction(scrapy.Spider):
# 爬虫名称
name = 'fiction'
# 第一页
start_urls = ['https://www.bequge.com/24_24077/12921184.html']
def parse(self, response):
filename = '全球高武.txt'
# 章节名
title = response.css('.bookname h1::text').extract_first()
# 章节内容
content = response.xpath("string(//div[@id='content'])").extract()[0].replace('\n','').replace('\r','').replace('\xa0',' ')
with open(filename,"a+",encoding='utf-8') as f:
f.write(title)
f.write("\n")
# 添加章节目录
f.write(content)
f.write("\n\n\n")
f.close()
next_page = response.xpath("//div[@class='bottem2']//@href").extract()[3]
if next_page is not None:
next_page = 'https://www.bequge.com'+next_page
yield scrapy.Request(next_page,callback=self.parse)
else:
self.log('完结')