Scrapy
naive老文
默默无闻,只为创造价值
展开
-
Scrapy 抓包的CSS选择器
选择器 示例 示例说明 CSS .class .intro 选择所有class="intro"的元素 1 #id #firstname 选择所有id="firstname"的元素 1 * * 选择所有元素 2 element p 选择所有<p>元素 1 element,elem...原创 2019-06-26 10:47:44 · 154 阅读 · 0 评论 -
Scrapy xpath选择器
路径表达式 结果 /bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。 /bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。 /bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。 /bo...原创 2019-06-26 11:12:30 · 162 阅读 · 0 评论 -
Scrapy 第一次爬虫
抓取某游戏网站的英雄技能数据 (1)尝试抓取技能名称: import scrapy import logging class SpellList(scrapy.Spider): name = "SpellList" start_urls = [ "https://pvp.qq.com/web201605/summoner.shtml", ] ...原创 2019-06-26 17:20:48 · 100 阅读 · 0 评论 -
Scrapy 第一次爬虫(二)
写进文件中: import scrapy class SpellList(scrapy.Spider): name = "SpellList" start_urls = [ "https://pvp.qq.com/web201605/summoner.shtml", ] def parse(self, response): s...原创 2019-06-27 15:05:23 · 80 阅读 · 0 评论 -
Scrapy 实战
xpath部分要点 (一)双斜杠 // 和单斜杠 / 的区别: // 表示的是从根节点搜索所有符合条件的元素。 / 表示寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作。 例子: spell_list = response.xpath("//ul[@id='spellList']/li") name_text = spell_list.xp...原创 2019-07-03 17:28:00 · 114 阅读 · 0 评论 -
Scrapy 很有用的命令
在项目目录下输入命令,将在mySpider/spider目录下创建一个名为itcast的爬虫,并指定爬取域的范围: scrapy genspider itcast "itcast.cn"原创 2019-06-28 14:17:04 · 74 阅读 · 0 评论