爬虫
achieve_success
这个作者很懒,什么都没留下…
展开
-
通用爬虫和聚焦爬虫
络爬虫可分为 通用爬虫 和 聚焦爬虫 两种。一、通用爬虫通用网络爬虫是捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。二、通用搜索引擎(Search Engine)工作原理通用网络爬虫 从互联网中搜集网页,采集信息,这些网页信息用于为搜索引擎建立索引从而提供支持,它决定着整个引擎系统的内容是否丰富...原创 2019-07-12 20:31:09 · 354 阅读 · 0 评论 -
Scrapy框架
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各种需求。Scra...原创 2019-07-14 22:31:20 · 210 阅读 · 0 评论 -
Selenium&PhantomJS
快速入门Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器,但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素,与页面上的元素进行交互 (发送文本、点击等),以及执行其他动作来运行网络爬虫。# 导入 webdriverfrom selenium import webdriverimpo...原创 2019-07-14 22:12:30 · 672 阅读 · 0 评论 -
python中的JSON模块
JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 2.7中自带了JSON模块,直接import json就可以使用了。官方文档:http://docs.python.org/...原创 2019-07-14 17:28:37 · 415 阅读 · 0 评论 -
xpath 和 python中lxml中的xpath
一、什么是XPath?XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。W3School官方文档:http://www.w3school.com.cn/xpath/index.asp二、XPath 开发工具开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)Chrome插件 XPat...原创 2019-07-14 17:18:32 · 243 阅读 · 0 评论 -
正则表达式re模块
一、简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义1、普通字符和11个元字符:. 匹配任意除换行符"\n"外的字符\ 转义字符,使后一个字符改变原来的意思* 匹配前一个字符0或多次* 匹配前一个字符1次...转载 2019-07-14 16:43:03 · 204 阅读 · 0 评论 -
request的高级操作
文件上传import requestsurl = "http://httpbin.org/post"files= {"files":open("test.jpg","rb")}response = requests.post(url,files=files)print(response.text)获取cookieimport requestsresponse = requests...原创 2019-07-14 16:11:39 · 160 阅读 · 0 评论 -
requests的基本操作
requests的基本使用1. 简介:Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库,Requests它会比urllib更加方便,可以节约我们大量的工作。2. 安装:pip install requests 或者直接用pycharm中的settings下的方法进行下载3. 使用:基于get请求:import...原创 2019-07-14 15:45:42 · 170 阅读 · 0 评论 -
cookie和sessio
服务器和客户端的交互仅限于请求/响应过程,结束之后便断开,在下一次请求时,服务器会认为新的客户端。为了维护他们之间的链接,让服务器知道这是前一个用户发送的请求,必须在一个地方保存客户端的信息。Cookie:通过在 客户端 记录的信息确定用户的身份。Session:通过在 服务器端 记录的信息确定用户的身份。...原创 2019-07-12 20:37:22 · 94 阅读 · 0 评论 -
HTTP和HTTPS
一、HTTP协议与HTTPS协议HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS协议(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)...原创 2019-07-12 20:36:43 · 226 阅读 · 0 评论 -
反反爬虫相关机制
通常防止爬虫被反主要有以下几个策略:动态设置User-Agent(随机切换User-Agent,模拟不同用户的浏览器信息)禁用Cookies(也就是不启用cookies middleware,不向Server发送cookies,有些网站通过cookie的使用发现爬虫行为)可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭设置延迟下载(防止访问过于频...原创 2019-07-14 22:52:53 · 4414 阅读 · 0 评论