网络爬虫
小黑--
这个作者很懒,什么都没留下…
展开
-
网络爬虫—05Scrapy爬虫框架
文章目录一、Scrapy架构流程1.简介2.优势3.架构流程图4.组件二、Scrapy爬虫步骤三、三国演义名著定向爬虫项目一、Scrapy架构流程1.简介Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如Bas...原创 2020-04-23 15:32:55 · 526 阅读 · 0 评论 -
网络爬虫—04Ajax/selenium爬虫
一、什么是Ajax浏览器中可看到正常显示的数据,但使用requests得到的结果并没有。 这是什么原因呢?requests获取的是原始的HTML文档,而浏览器中的页面是经过JS处理数据后生成的结果。这些数据的来源有哪些情况呢?Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成Ajax(Asynchronous JavaScript and XML)异步的...原创 2020-04-22 12:42:02 · 407 阅读 · 0 评论 -
网络爬虫—03网络数据解析
文章目录一、正则表达式正则表达式匹配规则正则实现步骤Pattern和Match对象方法汇总1.pattern对象方法2.match对象方法3.search4.findall和finditer方法5.split方法6.sub方法7.匹配中文8.正则常量9.贪婪模式与非贪婪模式基于requests和正则猫眼电影top100定向爬虫二、XPath数据解析库基于requests和XPath猫眼电影TOP1...原创 2020-04-20 18:22:13 · 1330 阅读 · 0 评论 -
网络爬虫—02网络数据采集
文章目录一、网络数据采集之urllib库二、网络数据采集之requests库request方法response对象高级应用一:添加headers高级应用二:IP代理设置三、项目案例一:京东商品的爬取项目案例二:百度/360搜索关键字提交Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib、requests这两个模块。重点学习requests一、网络数据采集...原创 2020-04-20 13:17:45 · 741 阅读 · 0 评论 -
网络爬虫—01爬虫入门
一、通用爬虫和聚焦爬虫根据使用场景,网络爬虫可分为:通用爬虫 和 聚焦爬虫两种1、通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着 整个引擎系统的内容是否丰富,信息是否即时...原创 2020-04-20 11:21:26 · 533 阅读 · 0 评论