- 博客(5)
- 收藏
- 关注
原创 网络爬虫—05Scrapy爬虫框架
文章目录一、Scrapy架构流程1.简介2.优势3.架构流程图4.组件二、Scrapy爬虫步骤三、三国演义名著定向爬虫项目 一、Scrapy架构流程 1.简介 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 它也提供了多种类型爬虫的基类,如Bas...
2020-04-23 15:32:55 526
原创 网络爬虫—04Ajax/selenium爬虫
一、什么是Ajax 浏览器中可看到正常显示的数据,但使用requests得到的结果并没有。 这是什么原因呢? requests获取的是原始的HTML文档,而浏览器中的页面是经过JS处理数据后生成的结果。 这些数据的来源有哪些情况呢? Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成 Ajax(Asynchronous JavaScript and XML)异步的...
2020-04-22 12:42:02 407
原创 网络爬虫—03网络数据解析
文章目录一、正则表达式正则表达式匹配规则正则实现步骤Pattern和Match对象方法汇总1.pattern对象方法2.match对象方法3.search4.findall和finditer方法5.split方法6.sub方法7.匹配中文8.正则常量9.贪婪模式与非贪婪模式基于requests和正则猫眼电影top100定向爬虫二、XPath数据解析库基于requests和XPath猫眼电影TOP1...
2020-04-20 18:22:13 1328
原创 网络爬虫—02网络数据采集
文章目录一、网络数据采集之urllib库二、网络数据采集之requests库request方法response对象高级应用一:添加headers高级应用二:IP代理设置三、项目案例一:京东商品的爬取项目案例二:百度/360搜索关键字提交 Python 给人的印象是抓取网页非常方便,提供这种生产力的,主要依靠的就是 urllib、requests这两个模块。重点学习requests 一、网络数据采集...
2020-04-20 13:17:45 741
原创 网络爬虫—01爬虫入门
一、通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为:通用爬虫 和 聚焦爬虫两种 1、通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。 主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着 整个引擎系统的内容是否丰富,信息是否即时...
2020-04-20 11:21:26 533
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人