python
wind_gogo
严以律己,宽以待人!
展开
-
Scrapy基础
Scrapy查询语法:当我们爬取大量的网页,如果自己写正则匹配,会很麻烦,也很浪费时间,令人欣慰的是,scrapy内部支持更简单的查询语法,帮助我们去html中查询我们需要的标签和标签内容以及标签属性。下面逐一进行介绍:查询子子孙孙中的某个标签(以div标签为例)://div查询儿子中的某个标签(以div标签为例):/div查询标签中带有某个class属性的标签://div[@class=’c1′...原创 2018-04-16 18:20:35 · 180 阅读 · 0 评论 -
Scrapy框架爬虫案例
运行环境 1. win10-64bit 2. python 3.6(E:\ProgramData\Anaconda3\python.exe)要爬取的部分为 通过查看源代码,需要解析的代码就是这么一部分<li> <div class="item"> <div class="pic"> <em class="">1&原创 2018-04-16 17:29:43 · 680 阅读 · 0 评论 -
Python实现爬虫分析与理解!
介绍一段自动抓取互联网信息的程序称为爬虫,主要组成:爬虫调度器、URL管理器、网页下载器、网页解析器(1)爬虫调度器:程序的入口,主要负责爬虫程序的控制 (2)URL管理器: 1、添加新的URL到待爬取集合 2、判断待添加URL是否已存在 3、判断是否还有待爬取的URL,将URL从待爬取集合移动到已爬取集合 URL存储方式:Python内存即set...原创 2018-04-13 14:40:40 · 2734 阅读 · 0 评论