Scrapy
scrapy爬虫
thginWalker
先了解世界,再隐秘其中!
展开
-
学习xpath看这一篇就够了
前言 偶然看见python的scrapy框架,由于兴趣的吸引,最近如入门式的学习,在学习过程中遇到了xpath的相关知识,在此进行总结方面日后查询和记忆。 参考: 菜鸟教程 理解 XPath是一门在 XML 文档中查找信息的语言。当然也可以运用于HTML。在scrapy中用来查找页面需要的内容。 选取节点 节点名:选取此节点的所有子节点 /:从根节点选取 //:从匹配选择的...原创 2018-02-19 13:54:25 · 1215 阅读 · 4 评论 -
scrapy基础入门(一)
前言 闲来无事捣腾了python爬虫,发现scrapy入门不错,虽然暂时对xpath和css的操作不是太了解。但是简单的爬虫还是挺好写的。 扩展 scrapyd可以部署多个scrapy爬虫,能够在网页端查看正在执行的任务,也能新建爬虫任务,和终止爬虫任务,功能比较强大。 安装 pip install Scrapy 常规基础 shell调试 scrapy shel...原创 2018-02-19 20:41:44 · 451 阅读 · 0 评论 -
scrapy文档案例源码
前言 针对http://quotes.toscrape.com/进行爬取的源码案例,方便学习和研究。 CSS提取 # -*- coding: utf-8 -*- import scrapy class ToScrapeCSSSpider(scrapy.Spider): name = "toscrape-css" start_urls = [ 'http...转载 2018-02-19 20:55:10 · 407 阅读 · 0 评论 -
对“西刺免费代理IP“爬取、测试并存入MySQL
前言 学习scrapy有一段时间了,但是对了笔记的总结并没有跟上步伐,这个案例是视频教程多次给出的,但是在此进行总结和学习,提高学习效率。 由于网站结构发生改变,这篇文章的代码也随之发生改变。 Python网络爬虫实战 Scrapy 注:b站真是个好地方。 思路 对了需求无非进行下面的顺序操作。 爬取IP信息 验证IP信息 存储IP信息 爬取 新建项目 scrapy s...原创 2018-02-23 16:44:24 · 1961 阅读 · 0 评论 -
对"瑶瑶代理IP"的爬取存取MySQL
前因 过分的西刺代理网站,对于爬虫早已写好,只待代理IP数据进入我的MySQL服务器中,可以无奈访问IP被封,所有转向了另一个代理IP网站—-瑶瑶代理IP。 配置 针对爬虫数据库操作主要在settings.py和pipelines.py文件中,前者进行配置,后者进行操作。注意的是代码中设计数据库配置应提前配置好。 settings.py # 数据库配置 DBKWARGS={'db...原创 2018-02-23 21:26:53 · 771 阅读 · 0 评论