Datewhale爬虫学习活动打卡--task1

最新推荐文章于 2024-07-27 12:20:46 发布

heihuide

最新推荐文章于 2024-07-27 12:20:46 发布

阅读量160

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_45697900/article/details/105658456

版权

HTML
HTML (HyperText Markup Language) 不是一门编程语言，而是一种用来告知浏览器如何组织页面的标记语言。HTML 可复杂、可简单，一切取决于开发者。它由一系列的元素（elements）组成，这些元素可以用来包围不同部分的内容，使其以某种方式呈现或者工作。一对标签（ tags）可以为一段文字或者一张图片添加超链接，将文字设置为斜体，改变字号，等等。
Requst
Requests是用python语言基于urllib编写的，采用的是Apache2 Licensed开源协议的HTTP库，如果你看过上篇文章关于urllib库的使用，你会发现，其实urllib还是非常不方便的，而Requests它会比urllib更加方便，可以节约我们大量的工作。（用了requests之后，你基本都不愿意用urllib了）一句话，requests是python实现的最简单易用的HTTP库，建议爬虫使用requests库。默认安装好python之后，是没有安装requests模块的，需要单独通过pip安装。
能爬取什么样的数据
网页文本：如HTML文档，Json格式化文本等。
图片：获取到的是二进制文件，保存为图片格式。
视频:同样是二进制文件。
其他：只要请求到的，都可以获取。
什么是爬虫
网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
其实通俗的讲就是通过程序去获取web页面上自己想要的数据，也就是自动抓取数据。
你可以爬图片，爬取自己想看看的视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。
爬虫的本质
模拟浏览器打开网页，获取网页中我们想要的那部分数据
浏览器打开网页的过程：
当你在浏览器中输入地址后，经过DNS服务器找到服务器主机，向服务器发送一个请求，服务器经过解析后发送给用户浏览器结果，包括html,js,css等文件内容，浏览器解析出来最后呈现给用户在浏览器上看到的结果
所以用户看到的浏览器的结果就是由HTML代码构成的，我们爬虫就是为了获取这些内容，通过分析和过滤html代码，从中获取我们想要资源。
尝试
打开网页之后点击鼠标右键，再点击检查就可以出现要爬取元素的标签。
在这里插入图片描述
再次点击右键就会出现copy，点击copy selector 可获得该标签的元素选择器。
然后用requests请求网页：
import requests
headers = {“User_Agent”: “Mozilla/5.0(compatible; MSIE 5.5; Windows 10)”}
data = requests.get(url, headers=headers).text
再用lxml解析网页：
from lxml import etree
s = etree.HTML(data)
接下来就可以提取我们想要的数据了。
由于第一次使用爬虫爬取数据操作和描述比较生疏，最后没有成功，所以给大家分享一下大致思路。
爬虫流程

发送请求->获取响应内容->解析内容->保存数据
1、发起请求
使用http库向目标站点发起请求，即发送一个Request
Request包含：请求头、请求体等
Request模块缺陷：不能执行JS 和CSS 代码
2、获取响应内容
如果服务器能正常响应，则会得到一个Response
Response包含：html，json，图片，视频等
3、解析内容
解析html数据：正则表达式（RE模块），第三方解析库如lxml，bs4等
解析json数据：json模块
解析二进制数据:以wb的方式写入文件
4、保存数据
数据库（MySQL，Mongdb、Redis）
文件

heihuide

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datewhale爬虫学习活动打卡--task1

HTMLHTML (HyperText Markup Language) 不是一门编程语言，而是一种用来告知浏览器如何组织页面的标记语言。HTML 可复杂、可简单，一切取决于开发者。它由一系列的元素（elements）组成，这些元素可以用来包围不同部分的内容，使其以某种方式呈现或者工作。一对标签（ tags）可以为一段文字或者一张图片添加超链接，将文字设置为斜体，改变字号，等等。Requst...
复制链接

扫一扫