目前还在学习爬虫scrapy框架,尝试爬取外网的小说网站:https://www.wattpad.com/stories/adventure
目前只是实现了一部分非常简单的内容爬取
还未实现的功能
‘’‘
1、将parse1和parse2 的内容结合到一起
2、没有实现根据阅读量去提取作者信息
3、没有实现将内容保存到数据库中
‘’‘’
有大佬看了可以指点一下吗?
代码如下:
import scrapy
import re
import urllib.response as ur
import lxml.etree as le
# 1、将parse1和parse2 的内容结合到一起
# 2、没有实现根据阅读量去提取作者信息
# 3、没有实现将内容保存到数据库中
class WpSpider(scrapy.Spider):
name = 'wp'
# allowed_domains = ['wattpad']
def start_requests(self):
# yield scrapy.Request(