Python爬虫基础介绍

最新推荐文章于 2024-07-12 16:16:27 发布

迷糊小财迷

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量221

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_41660160/article/details/105662851

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

互联网、HTTP

互联网

    互联网也叫因特网(Internet)，是指网络与网络所串联成的庞大网络，这些网络以一组标准的网络协议族相连，连接全世界几十亿个设备，形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”，在此基础上发展出来的覆盖全世界的全球性互联网络称为“互联网”，即相互连接在一起的网络。

HTTP

   HTTP（超文本传输协议）：一个基于请求与响应模式的、无效的、应用层的协议。常基于TCP的连接方式，绝大数的Web开发都是建立在HTTP 协议之上的Web应用。
   通过使用网页浏览器、网络爬虫或者其他工具，客户端可以向服务器上的指定端口（默认端口为80）发起一个HTTP请求。这个客户端成为客户代理（user agent）。应答服务器上存储着一些资源码，比如HTML文件和图像。这个应答服务器成为源服务器（origin server）。

在这里插入图片描述

概念

连接

   浏览器和服务器之间存在传输数据的通道。 当请求完毕，通道关闭，如果保持连接，会降低服务器的处理的客户端请求数，而不保持连接服务器可以处理更多的请求，但是会降低处理速度，每次重新连接需要很长的时间

请求

     浏览器向服务器发送的请求，包含请求的类型、请求的数据、浏览器的信息（语言、浏览器版本等）。
     
     HTTP的请求方法有很多种，主要包括以下几个：

   GET：向指定的资源发出“显示”请求。GET方法应该只用于读取数据，而不应当被用于“副作用”的操作中（例如在Web Application中）。其中一个原因是GET可能会被网络蜘蛛等随意访问。

   HEAD：与GET方法一样，都是向服务器发出直顶资源的请求，只不过服务器将不会出传回资源的内容部分。它的好处在于，使用这个方法可以在不必传输内容的情况下，将获取到其中“关于该资源的信息”（元信息或元数据）。

  POST：向指定资源提交数据，请求服务器进行处理（例如提交表单或者上传文件）。数据被包含在请求文本中。这个请求可能会创建新的资源或修改现有资源，或二者皆有。

PUT：向指定资源位置上传输最新内容。

DELETE：请求服务器删除Request-URL所标识的资源，或二者皆有。

TRACE：回显服务器收到的请求，主要用于测试或诊断。

OPTIONS：这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用“*”来代表资源名称向Web服务器发送OPTIONS请求，可以测试服务器共能是否正常。

CONNECT：HTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的连接（经由非加密的HTTP代理服务器）。方法名称是区分大小写的。当某个请求所针对的资源不支持对应的请求方法的时候，服务器应当返回状态码405（Method Not Allowed），当服务器不认识或者不支持对应的请求方法的时候，应当返回状态码501（Not Implemented）。

响应

     服务器对浏览器请求的返回的数据，包含是否成功、状态码等。

网页基础

网页组成

  网页是由 HTML 、 CSS 、JavaScript 组成的。
  HTML 是用来搭建整个网页的骨架，而 CSS 是为了让整个页面更好看，包括我们看到的颜色，每个模块的大小、位置等都是由 CSS 来控制的， JavaScript 是用来让整个网页“动起来”，这个动起来有两层意思，一层是网页的数据动态交互，还有一层是真正的动，比如我们都见过一些网页上的动画，一般都是由 JavaScript 配合 CSS 来完成的。
    在选项查看器（ 谷歌浏览器：Elements） 中可以看到网页的源代码，这里展示的就是 HTML 代码。

在这里插入图片描述
不同类型的文字通过不同类型的标签来表示，如图片用标签表示，视频用标签表示，段落用

标签表示，它们之间的布局又常通过布局标签

嵌套组合而成，各种标签通过不同的排列和嵌套才形成了网页的框架。

 在右边 Style 标签页中，显示的就是当前选中的 HTML 代码标签的 CSS 层叠样式，“层叠”是指当在HTML中引用了数个样式文件，并且样式发生冲突时，浏览器能依据层叠顺序处理。“样式”指网页中文字大小、颜色、元素间距、排列等格式。
 
  而 JavaScript 就厉害了，它在 HTML 代码中通常使用 <script> 进行包裹，可以直接书写在 HTML 页面中，也可以以文件的形式引入。

网页结构

在pycharm中创建一个demo.html文件，内容如下：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

</body>
</html>

  首先，整个文档是以 DOCTYPE 来开头的，这里定义了文档类型是 html ，整个文档最外层的标签是 <html> ，并且结尾还以 </html> 来表示闭和。

  这里简单讲一下，浏览器解析 HTML 的时候，并不强制需要每个标签都一定要有闭和标签，但是为了语义明确，最好每个标签都跟上对应的闭和标签。大家可以尝试删除其中的闭和标签进行尝试，并不会影响浏览器的解析。

   整个 HTML 文档一般分为 head 和 body 两个部分，在 head 头中，我们一般会指定当前的编码格式为 UTF-8 ，并且使用 title 来定义网页的标题，这个会显示在浏览器的标签上面。

   body 中的内容一般为整个 html 文档的正文，html的标签由<h1>到<h6>六个标签构成，字体由大到小递减，换行标签为<br>，链接使用<a>来创建，herf属性包含链接的URL地址，比如<a href="http://www.baidu.com" >一个指向百度的链接</a>
   
  大多数原色的属性以“名称-值”的形式成对出现，由“=”连接并写在开始标签元素名之后。值一般由单引号或双引号包围，有些值的内容包含特定字符，在html中可以去掉引号。不加引号的属性值被认为是不安全的。要注意的是，许多元素存在一些共同的属性：

id 属性为元素提供在全文档内的唯一标识。它用于识别元素，以便样式表可以改变其外观属性，脚本可以改变、显示或删除其内容或格式化。对于添加到页面的url，它为元素提供了一个全局唯一识别，通常为页面的子章节。
class 属性提供了一种将类似元素分类的方式，常被用于语义化或格式化。例如，一个html文档可以指定class="标记"来表明所有具有这一类值得元素都属于文档的主文本。格式化后，这样的元素可能会聚集在一起，并作为页面脚注而不会出现在html代码中。类值也可以多值声明。如class="标记重要"将元素同时放入“标记”与“重要”两类中。
style 属性可以将表现性质赋予一个特定原色。比起使用id或class属性从样式表中选择元素，“style”被认为是一个更好的做法。
tile 属性用于给元素一个附加的说明。大多数浏览器中这一属性显示为工具提示。

HTML DOM

在 HTML 中，所有标签定义的内容都是节点，它们构成了一个 HTML DOM 树。

根据 W3C 的 HTML DOM 标准，HTML 文档中的所有内容都是节点：

	    整个文档是一个文档节点
	
	    每个 HTML 元素是元素节点
	
	    HTML 元素内的文本是文本节点
	
	    每个 HTML 属性是属性节点
	
	    注释是注释节点

HTML DOM 将 HTML 文档视作树结构。这种结构被称为节点树：

在这里插入图片描述通过 HTML DOM，树中的所有节点均可通过 JavaScript 进行访问。所有 HTML 元素（节点）均可被修改，也可以创建或删除节点。

节点树中的节点彼此拥有层级关系。

父（parent）、子（child）和同胞（sibling）等术语用于描述这些关系。父节点拥有子节点。同级的子节点被称为同胞（兄弟或姐妹）。

在节点树中，顶端节点被称为根（root）

每个节点都有父节点、除了根（它没有父节点）

一个节点可拥有任意数量的子

同胞是拥有相同父节点的节点

下面的图片展示了节点树的一部分，以及节点之间的关系：
在这里插入图片描述

CSS

   在CSS中，我们使用CSS选择器来定位节点。例如，上例中 div 节点的 id 为 container ，那么就可以表示为 #container ，其中 # 开头代表选择 id ，其后紧跟 id 的名称。另外，如果我们想选择 class 为 wrapper 的节点，便可以使用 .wrapper ，这里以点 . 开头代表选择 class ，其后紧跟 class 的名称。

   另外， CSS 选择器还支持嵌套选择，各个选择器之间加上空格分隔开便可以代表嵌套关系，如 #container .wrapper p 则代表先选择 id 为 container 的节点，然后选中其内部的 class 为 wrapper 的节点，然后再进一步选中其内部的 p 节点。另外，如果不加空格，则代表并列关系，如 div#container .wrapper p.text 代表先选择 id 为 container 的 div 节点，然后选中其内部的 class 为 wrapper 的节点，再进一步选中其内部的 class 为 text 的 p 节点。这就是 CSS 选择器，其筛选功能还是非常强大的。

Requests

   requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。

import requests #导入requests库
url='https://www.baidu.com/'
#发起get请求
res = requests.get(url)
#存储爬虫内容  网页编码字符集需要确认
with open('request-get.txt','w',encoding='utf-8') as f:
    f.write(res.text)

url_fy='http://fy.iciba.com/ajax.php?a=fy'
word= 'requests模块是python中原生的基于网络请求的模块'
data={
        'f': 'auto',
        't': 'auto',
        'w': word
    }
headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
         'Referer':'https://maoyan.com/board'
         }
response = requests.post(url_fy,data=data,headers=headers)
response.json()
{'status': 1,
 'content': {'from': 'zh-CN',
  'to': 'en-US',
  'vendor': 'wps',
  'out': ' requests module is a native network-based request module in python.',
  'ciba_use': '来自机器翻译。',
  'ciba_out': '',
  'err_no': 0}}
response.json()['content']['out']  
' requests module is a native network-based request module in python.'

API

def getUrl(*address):
    ak = ''  ## 填入你的api key
    if len(address) < 1:
        return None
    else:
        for add in address:   
            url = 'http://api.map.baidu.com/geocoding/v3/?address={0}&output=json&ak={1}'.format(add,ak)  
            yield url
            

def getPosition(url):
    '''返回经纬度信息'''
    res = requests.get(url)
    #print(res.text)
    json_data = eval(res.text)
    
    if json_data['status'] == 0:
        lat = json_data['result']['location']['lat'] #纬度
        lng = json_data['result']['location']['lng'] #经度
    else:
        print("Error output!")
        return json_data['status']
    return lat,lng

if __name__ == "__main__":
    address = ['深圳市深圳大学','深圳市会展中心','上海市复旦大学','武汉市武汉大学']
    for add in address:
        add_url = list(getUrl(add))[0]
        print('url:', add_url)
        try:
            lat,lng = getPosition(add_url)
            print("{0}|经度:{1}|纬度:{2}.".format(add,lng,lat))
        except Error as e:
            print(e)

猫眼电影爬虫示例

#!/usr/bin/python
# -*- coding: utf-8 -*-
import requests
from pyquery import PyQuery as pq
login_url = 'https://maoyan.com/board/4'

headers ={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
         'Referer':'https://maoyan.com/board'
         }


r = requests.get(login_url,headers=headers)
ret = r.text
doc = pq(ret)

items = doc('dd').items()
for item in items:
    message = {
        'name':item.find('a').text(),
        'data':item.find('.releasetime').text(),
        'star':item.find('.star').text()
    }
    print(message)

迷糊小财迷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫基础介绍

互联网、HTTP互联网互联网也叫因特网(Internet)，是指网络与网络所串联成的庞大网络，这些网络以一组标准的网络协议族相连，连接全世界几十亿个设备，形成逻辑上的单一巨大国际网络。它由从地方到全球范围内几百万个私人的、学术界的、企业的和政府的网络所构成。通过电子、无线和光纤等一系列广泛的技术来实现。这种将计算机网络互相连接在一起的方法可称作“网络互联”，在此基础上发展出来的覆盖全世...
复制链接

扫一扫