爬虫
文章平均质量分 66
ls_ange
这个作者很懒,什么都没留下…
展开
-
HTTP基本知识
爬虫基本认知HTTP和HTTPSHTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层...原创 2018-10-28 13:48:55 · 226 阅读 · 0 评论 -
scrapy-items & spider
scrapy-items & spiderItems#获取item属性值item['title']item.get('title') item.keys()item.items() spider对spider来说,爬取的循环类似下文:以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生成response,并作...原创 2018-10-29 10:58:41 · 244 阅读 · 0 评论 -
scrapy-shell
scrapy-shell选择器CSSXpath备注含有属性response.css(‘div[class]’)response.xpath(’//div[@class]’)匹配属性值response.css(‘div[class=“quote”]’)response.xpath(’//div[@class=“quote”]’)匹配部分属性值res...原创 2018-10-29 10:56:33 · 564 阅读 · 0 评论 -
scrapy-安装环境
scrapy-安装环境站点Scrapy框架官方网址Scrapy中文维护站点安装 pip install Scrapy安装后,只要在命令终端输入 scrapy可以检验是否安装成功。windows安装错误:[Scrapy安装错误:](MicrosoftVisualC++14.0isrequired…https://blog.csdn.net/nima1994/artic...原创 2018-10-29 10:28:23 · 283 阅读 · 0 评论 -
Selenium
Selenium介绍selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。这个工具的主要功能包括:测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之...原创 2018-10-28 14:29:39 · 2087 阅读 · 0 评论 -
spider-页面解析-XML
spider-页面解析-XMLXML什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准什么是XPath?XPath (XML Path Langu...原创 2018-10-28 14:26:04 · 514 阅读 · 0 评论 -
spider-页面解析-CSS-BeautifulSoup4
spider-页面解析-CSS-BeautifulSoup4CSS 选择器:BeautifulSoup4lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的...原创 2018-10-28 14:23:34 · 273 阅读 · 0 评论 -
正则表达式
正则表达式https://www.cnblogs.com/tina-python/p/5508402.html简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。语法规则普通字符和11个元字符:普通字符匹配自身abcab...原创 2018-10-28 14:17:28 · 200 阅读 · 0 评论 -
Urllib-R
Requests介绍Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。requests 的底层实现其实就是 urllib3Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持P...原创 2018-10-28 14:16:04 · 122 阅读 · 0 评论 -
Urllib-O
Handler处理器 和 自定义Opener介绍opener是 urllib.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级功能。所以要支持这些功能:使用相关的 Handler处理器 来创建特定功能的处理器对象;...原创 2018-10-28 14:13:32 · 145 阅读 · 0 评论 -
Urllib-B
Urllib基础urlopen()在python2.x版本中可以直接使用import urllib来进行操作,但是python3.x版本中使用的是import urllib.request来进行操作from urllib import requestwith request.urlopen('http://localhost:8080/spider-test.html') as f:...原创 2018-10-28 14:10:36 · 189 阅读 · 0 评论 -
爬虫基本认知
爬虫基本认知什么是爬虫爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。...原创 2018-10-28 13:53:18 · 440 阅读 · 0 评论 -
scrapy items & pipeline
scrapy items & pipelineItem pipeline当Item在Spider中被收集之后,它将会被传递到Item Pipeline,一些组件会按照一定的顺序执行对Item的处理。每个item pipeline组件(有时称之为“Item Pipeline”)是实现了简单方法的Python类。他们接收到Item并通过它执行一些行为,同时也决定此Item是否继续通过...原创 2018-10-29 11:00:20 · 772 阅读 · 0 评论