一天学会用Python毫无人性的抓取小说---Python入坑指南

本文链接：https://blog.csdn.net/qq_40349588/article/details/85247842

看书，怎么能充钱呢！

看了爆肝机油的文章，简直是视觉上的冲击与享受，忍不住搞了一波Python---scrapy爬取数据

scrapy 先看中文教程，再看下文源码，不看我也不能打你

scrapy1.5中文文档 是中文的哦看了不吃亏，看了不上当，爬本小说看看，为啥不在网页看，引用机油的话“---浏览器上下部分都被什么 美女荷官在线发牌，一夜不射提升半小时之类你懂的画面遮盖了，还经常误触，如果是在电脑上看，我们可以用ADBLOCK之类的广告插件屏蔽，可是手机浏览器貌似没有插件啊，那怎么办呢？我可是程序员啊，程序员怎么能向这种问题低头呢？----”

几个常用的scrapy命令

"""
	python 命令：
		#scrapy startproject 项目名  例:
		scrapy startproject mingyan

		cd 到项目里

		#验证scrapy到底有木有提取到数据的工具
		scrapy shell http://lab.scrapyd.cn

		#scrapy crawl name里的内容   例:
		scrapy crawl mingyan

		#要爬取标签：励志
		scrapy crawl mingyan -a tag=励志
"""

scrapy很牛逼，基本神马都能爬，（听说东京很热）……这里就不翻译了，直接上代码

import scrapy

class fiction(scrapy.Spider):
	# 爬虫名称
	name = 'fiction'
	# 第一页
	start_urls = ['https://www.bequge.com/24_24077/12921184.html']
	def parse(self, response):
		filename = '全球高武.txt'
		# 章节名
		title = response.css('.bookname h1::text').extract_first()
		# 章节内容
		content = response.xpath("string(//div[@id='content'])").extract()[0].replace('\n','').replace('\r','').replace('\xa0',' ')
		with open(filename,"a+",encoding='utf-8') as f:
			f.write(title)
			f.write("\n")
			# 添加章节目录
			f.write(content)
			f.write("\n\n\n")
			f.close()
		next_page =  response.xpath("//div[@class='bottem2']//@href").extract()[3]
		if next_page is not None:
			next_page = 'https://www.bequge.com'+next_page
			yield scrapy.Request(next_page,callback=self.parse)
		else:
			self.log('完结')