前言
主要运用了scrapy持久化存储操作,下面主要展示spider和管道文件及一些设置。源码
爬取的是itcast师资信息http://www.itcast.cn/channel/teacher.shtml#ajavaee
爬虫文件(test1)
这部分主要是对内容解析
import scrapy
class Test1Spider(scrapy.Spider):
name = 'test1'
# allowed_domains = ['https://www.baidu.com/']
start_urls = ['http://www.itcast.cn/channel/teacher.shtml#ajavaee']
def parse(self, response):
li_list = response.xpath('/html/body/div[10]/div/div[2]/ul/li')
for li in li_list:
item={
}
item["name"] = li.xpath(".//h2/text()").extract_first()
if li.xpath(".//p/span[2]/text()").extract_first()!= None:
item["title"] = li.xpath(".//p/span[1]/text()").extract_first() + li.xpath(".//p/span[2]/text()").extract_first()
else:
item