scrapy爬虫框架
SpecYue
学习自记录
展开
-
01--Scrapy入门
创建项目scrapy startproject mySpider生成一个爬虫scrapy genspider itcast “itcast.cn” name = 'itcast' # 爬虫名 allowed_domains = ['itcast.cn'] # 允许爬的范围提取数据完善spider,使用xpath等方法settings中加上LOG_LEVEL = "WA...原创 2019-04-23 20:05:06 · 110 阅读 · 0 评论 -
02---logging模块的使用
SCRAPY- setting中设置LOG_LEVEL="WARNING"- setting中设置LOG_FILE="./a.log" 设置日志保存的位置,设置后终端不会显示日志内容- import logging,实例化logger的方式在任何文件中使用logger输出的内容普通项目中imort logginglogging.basicConfing() 设置日志输出的样式格式...原创 2019-04-29 18:19:51 · 143 阅读 · 0 评论 -
03--构造爬虫爬腾讯招聘,实现翻页爬取
创建项目scrapy startproject tencentcd tencent 打开项目目录 scrapy genspider hr tence.com# hr为spder文件的名字,tencent.com是允许爬的域名范围hr.py设置初始的url地址打开网页源代码根据xpath找需要的信息取标签的文本值使用text()函数,去标签的属性值用@,比如取a标签的地址re...原创 2019-04-29 19:22:11 · 185 阅读 · 0 评论 -
04--定义item,使用meta在不同解析函数之间传递参数
文章目录使用爬阳光政务平台的例子创建项目文件结构定义itemyg.py处理数据注意使用爬阳光政务平台的例子创建项目scrapy startproject ygscrapy genspider yguang wz.sun0769.com文件结构定义item到item.py中只有在item.py中定义的字段才能在yg.py中使用# -*- coding: utf-8 -*-...原创 2019-05-05 17:09:53 · 487 阅读 · 0 评论 -
05--CrawlSpider的使用
CrawlSipder可以自动根据正则表达式提取页面中的url地址,更具相应的参数去到callback函数以及要不要在新提取到的url地址执行提取url地址的规则创建CrawlSpiderscrapy genspider -t crawl 爬虫文件名 allowed_domains(限定域)代码# -*- coding: utf-8 -*-import scrapyfrom scrap...原创 2019-05-06 16:46:54 · 165 阅读 · 0 评论