步骤:
1.创建爬虫的项目
scrapy startproject 项目名称
注意:项目名称不允许时使用数字开头,也不允许包含中文
eg:scrapy startproject scrapy_091_baidu
2.创建爬虫文件
在spiders文件夹中创建爬虫文件
cd 项目名称\形目名称\spiders
eg:cd scrapy_091_baidu\scrapy_091_baidu\spiders创建爬虫文件
scrapy genspider 爬虫文件的名字 要爬取的网页
eg:scrapy genspider baidu http://www.baidu.com
一般情况下不需添加http:// 否则要手动修改start_urls = ["http://http://www.baidu.com"]
3运行爬虫代码
scrapy crawl 爬虫名字
eg:scrapy crawl baidu
【注意】在运行时,要注释掉settings文件中的君子协议,即为ROBOTSTXT_OBEY = True
在一般情况下,不需要遵守
代码块-----自动生成部分
import scrapy
class BaiduSpider(scrapy.Spider):
#爬虫的名字 用于进行爬虫的时候 使用的值
name = "baidu"
# 允许访问的域名
allowed_domains = ["www.baidu.com"]
#起始的url地址 指的是**第一次**要访问的域名
#starts_urls 是在allowed_domains的前面添加一个http://
# 可能会在allowed_domains的后面添加/ 此处未添加
start_urls = ["http://www.baidu.com"]
#是执行了start_urls之后 执行的方法 方法中的response 就是返回的那个对象
#相当于 response = urllib.request.urlopen() or response = requests.get()
def parse(self, response):
print('what can i say , man')
# pass