爬虫_achieve_success的博客-CSDN博客

爬虫

关注

关注数：文章数：11 文章阅读量：7161 文章收藏量：26

作者: achieve_success

这个作者很懒，什么都没留下…

展开

通用爬虫和聚焦爬虫

络爬虫可分为通用爬虫和聚焦爬虫两种。一、通用爬虫通用网络爬虫是捜索引擎抓取系统（Baidu、Google、Yahoo等）的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。二、通用搜索引擎（Search Engine）工作原理通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富...

原创 2019-07-12 20:31:09 · 354 阅读 · 0 评论
Scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。Scra...

原创 2019-07-14 22:31:20 · 210 阅读 · 0 评论
Selenium&PhantomJS

快速入门Selenium 库里有个叫 WebDriver 的 API。WebDriver 有点儿像可以加载网站的浏览器，但是它也可以像 BeautifulSoup 或者其他 Selector 对象一样用来查找页面元素，与页面上的元素进行交互 (发送文本、点击等)，以及执行其他动作来运行网络爬虫。# 导入 webdriverfrom selenium import webdriverimpo...

原创 2019-07-14 22:12:30 · 672 阅读 · 0 评论
python中的JSON模块

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 2.7中自带了JSON模块，直接import json就可以使用了。官方文档：http://docs.python.org/...

原创 2019-07-14 17:28:37 · 415 阅读 · 0 评论
xpath 和 python中lxml中的xpath

一、什么是XPath？XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。W3School官方文档：http://www.w3school.com.cn/xpath/index.asp二、XPath 开发工具开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)Chrome插件 XPat...

原创 2019-07-14 17:18:32 · 243 阅读 · 0 评论
正则表达式re模块

一、简介正则表达式本身是一种小型的、高度专业化的编程语言，而在python中，通过内嵌集成re模块，程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码，然后由用C编写的匹配引擎执行。二、正则表达式中常用的字符含义1、普通字符和11个元字符：. 匹配任意除换行符"\n"外的字符\ 转义字符，使后一个字符改变原来的意思* 匹配前一个字符0或多次* 匹配前一个字符1次...

转载 2019-07-14 16:43:03 · 204 阅读 · 0 评论
request的高级操作

文件上传import requestsurl = "http://httpbin.org/post"files= {"files":open("test.jpg","rb")}response = requests.post(url,files=files)print(response.text)获取cookieimport requestsresponse = requests...

原创 2019-07-14 16:11:39 · 160 阅读 · 0 评论
requests的基本操作

requests的基本使用1. 简介：Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，Requests它会比urllib更加方便，可以节约我们大量的工作。2. 安装：pip install requests 或者直接用pycharm中的settings下的方法进行下载3. 使用：基于get请求：import...

原创 2019-07-14 15:45:42 · 170 阅读 · 0 评论
cookie和sessio

服务器和客户端的交互仅限于请求/响应过程，结束之后便断开，在下一次请求时，服务器会认为新的客户端。为了维护他们之间的链接，让服务器知道这是前一个用户发送的请求，必须在一个地方保存客户端的信息。Cookie：通过在客户端记录的信息确定用户的身份。Session：通过在服务器端记录的信息确定用户的身份。...

原创 2019-07-12 20:37:22 · 94 阅读 · 0 评论
HTTP和HTTPS

一、HTTP协议与HTTPS协议HTTP协议(HyperText Transfer Protocol，超文本传输协议)：是一种发布和接收 HTML页面的方法。HTTPS协议(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版，在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)...

原创 2019-07-12 20:36:43 · 226 阅读 · 0 评论
反反爬虫相关机制

通常防止爬虫被反主要有以下几个策略：动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭设置延迟下载（防止访问过于频...

原创 2019-07-14 22:52:53 · 4414 阅读 · 0 评论

爬虫

作者: achieve_success

通用爬虫和聚焦爬虫

Scrapy框架

Selenium&PhantomJS

python中的JSON模块

xpath 和 python中lxml中的xpath

正则表达式re模块

request的高级操作

requests的基本操作

cookie和sessio

HTTP和HTTPS

反反爬虫相关机制