![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python--爬虫
哦?
这个作者很懒,什么都没留下…
展开
-
python爬虫四--Scrapy爬虫框架
文章目录一、Scrapy架构流程二、Scrapy爬虫步骤三、三国演义名著定向爬虫项目四、item详解 一、Scrapy架构流程 1.简介 Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。 Scrap,是碎片的意思,这个Python的爬虫原创 2020-05-09 22:47:17 · 410 阅读 · 0 评论 -
python爬虫三—Ajax/selenium爬虫
文章目录一、什么是Ajax二、Ajax如何分析页面三、基于Ajax和requests的的微博采集器四、selenium介绍 一、什么是Ajax 浏览器中可看到正常显示的数据,但使用requests得到的结果并没有。 这是什么原因呢? requests获取的是原始的HTML文档,而浏览器中的页面是经过JS处理数据后生成的结果。 这些数据的来源有哪些情况呢? Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成 Ajax(Asynchronous JavaScript and X原创 2020-05-09 21:43:36 · 928 阅读 · 0 评论 -
python爬虫二—网络数据解析
文章目录一、正则表达式 一、正则表达式 1.为什么要学正则表达式 爬虫一共四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据) 处理数据(按照我们想要的方式存储和使用) 2.什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 小例子: 3.re 模块一般...原创 2020-05-09 21:16:49 · 458 阅读 · 0 评论 -
python爬虫一:数据采集
文章目录爬虫简介简单爬虫小案例: 实现一个图片下载器网络数据采集之requests库(常用)小练习:使用get与post方法实现爬取反爬小技巧一: 添加 headers二:IP代理设置小练习:有道搜索关键词提交 爬虫简介 一、根据使用场景,网络爬虫可分为:通用爬虫 和 聚焦爬虫两种: 通用爬虫: 通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分; 主要...原创 2020-04-29 21:08:11 · 631 阅读 · 0 评论