爬虫
CodingAndCoCoding
王多鱼不多余
展开
-
Scrapy可视化管理工具—spiderkeeper应用
ScrapydScrapyd是一个用于部署scrapy项目和通过HTTP API控制爬虫的服务软件。官方文档:http://scrapyd.readthedocs.org/Github项目地址: https://github.com/scrapy/scrapydScrapy使用教程安装pip install scrapyd运行scrapyd命令,访问127.0.0.1:6800可...原创 2020-05-04 22:24:17 · 1038 阅读 · 0 评论 -
有道词典的爬虫--POST方法提交数据的练习
目的:实现有道翻译的爬虫,输入需要翻译的内容,返回翻译的结果访问的网址:http://fanyi.youdao.com/难点:salt(盐)的生成,在js源代码中查看sign(签名)的生成,其加密方式的分析访问的url不是有道翻译的网址,而是头部里的Request URL, 且访问的时候需要删除’_o’POST方式爬虫分析:需要解析Ajax的API接口,查看请求头部Reque...原创 2020-05-04 14:48:12 · 649 阅读 · 0 评论 -
网络爬虫--Selenium的使用
为什么要使用Selenium?JS动态渲染的页面不止Ajax这一种, 有些网站,不能直接分析Ajax来抓取, 难以直接找出其规律。如何解决上述问题呢?直接使用模拟浏览器运行的方式来实现,可见即可爬。Python提供了许多模拟浏览器运行的库,如Selenium、Splash、PyV8、Ghost等。Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等...原创 2020-05-04 13:40:27 · 656 阅读 · 0 评论 -
网络爬虫--Ajax爬虫
什么是Ajax?为什么要用Ajax?问:浏览器中可看到正常显示的数据,但使用requests得到的结果并没有。 这是什么原因呢?答:requests获取的是原始的HTML文档,而浏览器中的页面是经过JS处理数据后生成的结果。问:这些数据的来源有哪些情况呢?答:Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成。什么是Ajax?Ajax(Asynchr...原创 2020-05-03 23:11:08 · 806 阅读 · 0 评论 -
网络爬虫--Scrapy爬虫框架
文章目录Scrapy爬虫框架Scrapy架构流程简单介绍优势Scrapy架构流程Scrapy爬虫步骤1、新建Scrapy项目2、明确目标(items.py)3、制作爬虫4、存储数据Scrapy爬虫框架Scrapy架构流程简单介绍Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy吸引人的地方在于它是一个...原创 2020-05-02 23:07:21 · 742 阅读 · 1 评论 -
爬虫之网络数据解析的三种方式---正则表达式、XPath数据解析库、BeautifulSoup数据解析库
正则表达式爬虫的四个主要步骤:明确目标(要知道你准备取哪个范围或者网站上取搜索)爬(将所有网站的内容全部爬下来)取(取掉对我们没用的数据)处理数据(按照我们想要的方式存储和使用)什么是正则表达式?正则表达式(regular expression),又称为规则表达式,描述了一种字符串匹配的模式(pattern),通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是由普...原创 2020-05-02 20:49:34 · 2355 阅读 · 0 评论 -
网络数据采集---urllib库和requests库
网络数据采集之urllib库一、urlliburllib简介urllib是python中一个功能强大用于操作URL,并在爬虫时经常用到的一个基础库,无需额外安装,默认已经安装到python中。官方文档地址:请点击这里urllib的四个子模块Python中urllib库包括以下四个子模块,urllib库是python的内置HTTP请求库,urllib库是一个运用于URL的包(urllib...原创 2020-04-22 22:33:23 · 722 阅读 · 0 评论 -
爬虫基础入门
01、通用爬虫和聚焦爬虫根据使用场景,网络爬虫可以分为通用爬虫和聚焦爬虫两种。通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。通用搜索引擎(Search Engine)工作原理通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决...原创 2020-04-22 12:06:16 · 407 阅读 · 0 评论