Python爬虫——小白笔记（一）

最新推荐文章于 2024-05-18 17:28:34 发布

坞吾5雾

最新推荐文章于 2024-05-18 17:28:34 发布

阅读量630

点赞数

分类专栏：数据采集与预处理文章标签：爬虫 python

本文链接：https://blog.csdn.net/m0_64139004/article/details/127202350

版权

数据采集与预处理专栏收录该内容

4 篇文章 0 订阅

订阅专栏

爬虫是什么？

如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据就是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据。

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一憧楼里不知疲倦地爬来爬去。

解释1：通过一个程序，根据Url<网址/域名>（http://www.taobao.com）进行爬取网页，获取有用信息

解释2：使用程序模拟浏览器，去向服务器发送请求，获取响应信息

页面结构介绍

举个例子：我们打开京东网站，我们要的只是页面中的部分数据；假如我们只想获取左边一栏的数据，看看京东都卖哪些东西；

鼠标右键->检查

就会出现一下界面

我们可以看到右边有很多ul，li，a...标签

附加HTML内容

打开pycharm，新建一个HTML文件

建好后是这样，body之间可嵌套table，table中可嵌套tr（行），tr中嵌套td（列）；

在body之间我们可以输入一些东西（建表）,<tr></tr>快捷键：输入tr,按Tab键；其他同理。

选择左上角谷歌浏览器，我们将会看到这样一个表格：
table 表格
tr  行
td  列
width   表格宽度
height  表格高度
border  表格边框
在<table></table>下建一个<ul>,ul是无序列表，ul下嵌套li

刷新Chrome中的界面，如下：

除ul无序列表外，有序列表是ol ，同样ol下嵌套li

刷新Chrome中的界面，如下：

除此之外，我们还观察到京东网页里面有很多a标签

刷新Chrome中的界面，如下：

点击菜鸟，我们就跳转到了菜鸟教程页面中；