流程说明
第一步:创建一个项目
点开pycharm下的Terminal: local 输入下面代码
scrapy startproject test_scrapy
第二步:编写爬虫代码
cd ./test_scrapy
scrapy genspider python01 www.xxx.com
代码在下方
第三步:启动爬虫项目
#设置settings.py
ROBOTSTXT_OBEY = False
LOG_LEVEL = ‘ERROR’
scrapy crawl python01 -o ./dbglzhaopin.csv
scrapy crawl python01 -o ./dbglzhaopin.json
scrapy爬取示例-三国演义章节内容代码
import scrapy
# -*- coding:utf-8 -*-
class Python01Spider(scrapy.Spider):
'''
name:
1.不能重复
2.爬虫文件的名字
'''
name = 'python01'
#allowed_domains = ['www.baidu.com']
'''
scrapy 去爬取的 url 列表
'''
start_urls = ['https://www.shicimingju.com/book/sanguoyanyi.html']
def parse(self, response):
#1.scrapy 数据解析 =》
'''
1.标签定位:
返回 selector(xpath,data[xpath表达式 结果])
2.数据解析
返回 selector(xpath,data[xpath表达式 结果])
'''
li_list = response.xpath('//div[@class="book-mulu"]/ul/li')
res= []
for index,li in enumerate(li_list):
a_text_get = li.xpath('./a/text()').get()
a_text_get.encode('utf-8').decode('unicode_escape')
dic={
'id':index,
'title':a_text_get
}
res.append(dic)
return res
运行结果