从零开始的Python爬虫学习0-概论部分

本文链接：https://blog.csdn.net/capodexi/article/details/113152135

从零开始的Python爬虫学习0-概论部分

终于结束了这个魔幻的学期，但终于闲下来的我发现自己并不能安然自得地开始沉浸在游戏中的假期生活——因此我计划通过假期时间学习一些和专业有一定关联度的编程知识，而Python爬虫应该是一个难易度适中而又有应用潜力的课目。

学习内容

爬虫概论

·概念 Python爬虫是使用某种规则，自动抓取互联网信息的脚本程序。
重点是根据用户需求定向获得指定类型的信息；
·本质程序模拟浏览器打开网页，并获取相关信息；
爬虫抓取网页索引去的内容，进入临时库并进行判断，分类归档排序；

基本流程

准备工作：查看并分析目标网页；
获取数据：HTTP库项目表发起请求并获得反馈响应；
解析内容：程序使用库对获取的HTML、json等格式进行解析和分析；
保存数据：保存数据到数据库或指定文件

准备工作

1.分析目录URL
分析html文件中的等有效内容<br/> 分析html文件中的js代码和css代码部分

2.网页获取访问端的用户和设备信息
User-Agent：访问的浏览器信息（同时包含系统和底层架构）
Cookie：服务器用于唯一标识访问的客户端的相关数据（Cookie数据存储在客户机本地）

3.爬虫程序的构建流程
从三个主要部分着手进行程序的编写：爬取数据-解析数据-保存数据
Python使用urllib库实现页面的获取；
在获取页面的过程中，爬虫程序获得了页面的全部HTML代码，并在后续的解析数据过程中，分析和提取可用数据

以下是今天完成的建议爬虫程序实例
①爬取程序
#编写Python爬虫程序爬取同济大学官网的基本信息和html代码：

import requests

r=requests.get('https://www.tongji.edu.cn/')
print("文本编码：",r.encoding)
print("响应状态码：",r.status_code)
print("字符串方式的响应体：",r.text)

运行结果如下：
在这里插入图片描述得到网页的基本信息和html全部代码；
②提取数据
#在第一步骤的基础上使用bs4库得到第一篇文章的标题并输出显示；

import requests
from bs4 import BeautifulSoup

link='https://www.tongji.edu.cn/'
headers={'User-Agent':'Mozilla/5.0(Windows;U;Windows 10;en-US;rv:1903)Gecko/20210126 Firefox/84.0.2'}
r=requests.get(link,headers=headers)
soup=BeautifulSoup(r.text,"lxml")       #使用bs解析这段代码
title=soup.find("li",class_='').a.text.strip()        #找到第一篇文章的标题
print(title)    #输出结果