python-玩转数据-网络数据采集
文章平均质量分 84
人猿宇宙
大数据\项目管理
展开
-
大数据-玩转数据-Python几种数据采集
上述代码报错的原因是因为,suds在解析返回来的WSDL的时候,发现返回的XML中的有些类型,不在标准的XML架构命名空间中,因此解析的时候报错了,这个时候我们需要加上如下几行代码,导入当前服务的命名空间。和大多数网络数据采集的方式不同,API用一套非常标准的规则生成数据,而且生成的数据也是按照非常标准的方式组织的。不过并非所有API都很简单,有些API的规则比较复杂,因此第一次使用一个API时,建议阅读文档,无论你对以前用过的API是多么熟悉。...原创 2022-08-01 06:59:39 · 3728 阅读 · 0 评论 -
Python-玩转数据-scrapy简单分布式爬虫
一、说明虽然scrapy能做的事情很多,但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度,将起始的网址从start_urls里分离出来,改为从redis读取,多个客户端可以同时读取同一个redis,从而实现了分布式的爬虫。就算在同一台电脑上,也可以多进程的运行爬虫,在大规模抓取的过程中非常有效。二、分布式爬虫原理多了一个redis组件,主要影响两个地方:第一个是调度器。第二个是数据的处理。Scrapy-Redis分布式策略。作为一个分布式爬虫,是需要有一个Master原创 2022-02-12 13:30:52 · 1099 阅读 · 0 评论 -
Python-玩转数据-scrapy之pipeline
一、关于scrapy中pipleline的基本认识首先我们看看Item Pipeline在Scrapy中的架构,如下图所示。Item Pipeline又称之为管道,顾名思义就是对数据的过滤处理,其主要的作用包括如下:清理HTML数据。验证爬取数据,检查爬取字段。查重并丢弃重复内容。将爬取结果保存到数据库。二、几个核心的方法创建一个项目的时候都会自带pipeline其中就实现了process_item(item, spider)方法open_spider(spider)就是打开spi原创 2022-02-11 22:12:42 · 2349 阅读 · 0 评论 -
Python-玩转数据-Scrapy中Spiders
一、Spiders工作流程:Spiders是Scrapy中最重要的地方,它定义了如何爬取及解析数据,可以说Spiders是Scrapy框架中的核心所在。根据初始的urls生成requests对象并指定处理requests对象response的回调方法。初始的urls是由spider的start_urls属性指定的,然后默认调用start_requests方法生成对应的requests对象,处理requests对象response的默认回调方法是parse。在回调方法里,解析response的内容并返原创 2022-02-11 19:08:26 · 775 阅读 · 0 评论 -
Python-玩转数据-Scrapy中选择器
一、说明:官方文档地址:https://docs.scrapy.org/en/latest/topics/selectors.html在抓取网页时,爬虫需要执行的最常见任务是从HTML源提取数据,Scrapy带有自己的提取数据机制,它们被称为选择器,因为它们“选择”由XPath或CSS表达式指定的HTML文档的某些部分。Scrapy选择器是在lxml库上构建的,这意味着它们在速度和解析准确性方面非常相似。XPath是一种用于在XML文档中选择节点的语言,也可以与HTML一起使用。CSS是一种将样式原创 2022-02-11 16:09:46 · 513 阅读 · 0 评论 -
Python-玩转数据-scrapy命令行
说明scrapy命令行官方文档网址https://docs.scrapy.org/en/latest/topics/commands.htmlwindows 命令窗口或pycharm terminal Windows PowerShell 窗口执行命令显示可用命令1、显示可用的命令行工具scrapy -h 2、可显示所有可用的命令scrapy -h # 创建项目scrapy startproject myproject进入项目中目录cd myproject查看spider模原创 2022-02-11 12:39:04 · 636 阅读 · 0 评论 -
Python-玩转数据-Scrapy框架介绍及安装
@[TOC]一级目录一级目录原创 2022-02-10 23:15:05 · 2932 阅读 · 0 评论 -
Python-玩转数据-爬虫框架pyspider 与 Scrapy 的区别
Python-玩转数据-爬虫框架pyspider 与 Scrapy 的区别1、pyspider 提供了 WebUI,爬虫的编写、调试都是在 WebUI 中进行的而 Scrapy 原生是不具备这个功能的,采用的是代码和命令行操作,但可以通过对接 Portia 实现可视化配置。2、pyspider 调试非常方便,WebUI 操作便捷直观,在 Scrapy 中则是使用 parse 命令进行调试,论方便程度不及 pyspider。3、pyspider 支持 PhantomJS 来进行 JavaScript原创 2022-02-10 21:01:29 · 2529 阅读 · 0 评论 -
Python-玩转数据-selenium库
Python-玩转数据-selenium库一、说明selenium最初是一个自动化测试工具,可以驱动浏览器自动执行自定义好的逻辑代码,也就是可以通过代码完全模拟成人类使用浏览器自动访问目标站点并操作,而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。二、selenium的安装1、下载selenium模块:pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium或者在pycharm中下载2原创 2022-02-10 18:36:50 · 175 阅读 · 0 评论 -
Python- 玩转数据-PyQuery库
Python- 玩转数据-PyQuery库一、说明pyquery库是jQuery的Python实现,能够以jQuery的语法来操作解析 HTML 文档,和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能使用lxml操作xml和html文档。二、初始化PyQuery对象html文档的所有操作都需要PyQuery对象来完成,初始化PyQuery对象主要有三种方式,分别是通过网址、字符串和文件名创建。方式一:通过网址原创 2022-02-10 13:07:47 · 1161 阅读 · 0 评论 -
Python-玩转数据-BeautifulSoup库
Python-玩转数据-BeautifulSoup库一、说明:Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。Be原创 2022-02-09 21:10:58 · 349 阅读 · 0 评论 -
Python-玩转数据-正则表达式re库
Python-玩转数据-正则表达式re库正则表达式测试网址:https://tool.oschina.net/regex/一、说明爬虫爬取下来的数据庞大且混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。"规则字符串"是用来表达对字符串的一种过滤逻辑。 Python 中,我们可以使用内置的 re 模块来使用正则表达式。字符串中含转义字符,但我们要使用原始字符串,只需加一个 r 前缀,示例:r'chua原创 2022-02-09 16:00:07 · 374 阅读 · 0 评论 -
Python-玩转数据-requests库
Python-玩转数据-requests库一、说明requests是一个很实用的Python HTTP客户端库,爬虫和测试服务器响应数据时经常会用到,requests是Python语言的第三方的库,专门用于发送HTTP请求,使用起来比urllib简洁很多。Requests 有这些功能:1、Keep-Alive & 连接池2、国际化域名和 URL3、带持久 Cookie 的会话4、浏览器式的 SSL 认证5、自动内容解码6、基本/摘要式的身份认证7、优雅的 key/value Co原创 2022-02-08 20:11:58 · 683 阅读 · 0 评论 -
Python-玩转数据-urllib库
Python-玩转数据-urllib库一、说明:urllib库是python内置的一个http请求库,requests库就是基于该库开发出来的,虽然requests库使用更方便,但作为最最基本的请求库,了解一下原理和用法还是很有必要的。二、urllib四个模块组成:urllib.request 请求模块(就像在浏览器输入网址,敲回车一样)urllib.error 异常处理模块(出现请求错误,可以捕捉这些异常)urllib.parse url解析模块urllib.robotpars原创 2022-02-08 17:21:57 · 1200 阅读 · 0 评论 -
Python-玩转数据-爬虫的基本原理
Python-玩转数据-爬虫基本原理一、说明:网络爬虫,又名网页蜘蛛或网络机器人,是请求网站并提取数据的自动化程序,爬虫程序只提取网页代码中对我们有用的数据。二、爬虫基本流程一般分四步1、发起请求:用程序模拟浏览器通过HTTP库向目标站点发起请求,即发送一个Request,请求可以包含额外的headers等信息,等待服务器响应。2、获取响应内容:如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能有HTML,Json字符串,二进制数据(如图片视频原创 2022-02-07 18:26:16 · 1481 阅读 · 0 评论 -
python-玩转数据-爬虫常用库和框架
python-玩转数据-爬虫常用库和框架一、请求库:实现 HTTP 请求操作urllib库:一系列用于操作URL的功能,Python的内置库,直接使用方法import导入即可。Urllib 库中有这么 4 个模块1、urllib.request():request模块是我们用的比较多的,就是用它来发起请求,模拟浏览器2、urllib.error():error模块就是当我们在使用 request 模块遇到错了,就可以用它来进行异常处理3、urllib.parse():parse模块就是用来解析我们原创 2022-02-06 11:29:46 · 434 阅读 · 0 评论