网络爬虫基础总结

最新推荐文章于 2024-06-14 23:14:11 发布

小韩学长

最新推荐文章于 2024-06-14 23:14:11 发布

阅读量2.2k

点赞数 2

分类专栏： Python学习篇文章标签：网络爬虫 python 数据分析

本文链接：https://blog.csdn.net/weixin_39036700/article/details/102054001

版权

网络爬虫基础总结

网络爬虫

这篇文章是对莫烦pyhton爬虫基础课进行一个总结，详细教程大家可以参考学习官网： https://morvanzhou.github.io/tutorials/data-manipulation/scraping/

网络爬虫

对于网络爬虫，我个人理解就是从网页爬取数据。那么要学习网络爬虫，你得弄清楚以下几个问题：（1）网页是什么？（2）数据在网页中怎么存储的？（3）如何爬取数据？让我们一起带着问题去开启爬虫学习之旅吧。

本课程的教学流程如下图所示，不过这些都是些基础知识。有了基础之后，你才能更加深入自学。
在这里插入图片描述

1. 爬虫简介

爬虫的产物产物无处不在, 比如说搜索引擎 (Google, 百度), 他们能为你提供这么多搜索结果, 也都是因为它们爬了很多信息, 然后展示给你. 再来说一些商业爬虫, 比如爬爬淘宝的同类商品的价格信息, 好为自己的商品挑选合适的价格. 爬虫的用途很多很多, 如果你搞机器学习, 爬虫就是你获取数据的一种途径, 网上的信息成百上千, 只要你懂爬虫, 你都能轻松获取。

why？ ，爬虫就是为了爬取所需数据为我所用；
知其然，也要知其所以然，我们必须了解网页结构。

网页结构

学习爬虫, 首先要懂的是网页. 支撑起各种光鲜亮丽的网页的不是别的, 全都是一些代码. 这种代码我们称之为 HTML, HTML 是一种浏览器(Chrome, Safari, IE, Firefox等)看得懂的语言, 浏览器能将这种语言转换成我们用肉眼看到的网页. 所以 HTML 里面必定存在着很多规律, 我们的爬虫就能按照这样的规律来爬取你需要的信息.其实除了 HTML, 一同构建多彩/多功能网页的组件还有 CSS 和 JavaScript.

网页的基本组成部分
在 HTML 中, 基本上所有的实体内容, 都会有个 tag 来框住它. 而这个被 tag 住的内容, 就可以被展示成不同的形式, 或有不同的功能. 主体的 tag 分成两部分, header 和 body. 在 header 中, 存放这一些网页的网页的元信息, 比如说 title, 这些信息是不会被显示到你看到的网页中的. 这些信息大多数时候是给浏览器看, 或者是给搜索引擎的爬虫看.例如，莫烦爬虫测试1的网页代码就很好地展现了网页的节本结构，具体网页的HTML代码如下：
在这里插入图片描述
用python登录网页
对网页结构和 HTML 有了一些基本认识以后, 我们就能用 Python 来爬取这个网页的一些基本信息. 首先要做的, 是使用 Python 来登录这个网页, 并打印出这个网页 HTML 的 source code. 注意, 因为网页中存在中文, 为了正常显示中文, read() 完以后, 我们要对读出来的文字进行转换, decode() 成可以正常显示中文的形式.

from urllib.request import urlopen
# if has Chinese, apply decode()
html = urlopen(
    "https://morvanzhou.github.io/static/scraping/basic-structure.html"
).read().decode('utf-8')
print(html)

print 出来就是下面这样啦. 这就证明了我们能够成功读取这个网页的所有信息了. 但我们还没有对网页的信息进行汇总和利用. 我们发现, 想要提取一些形式的信息, 合理的利用 tag 的名字十分重要.

<!DOCTYPE html>
<html lang="cn">
<head>
	<meta charset="UTF-8">
	<title>Scraping tutorial 1 | 莫烦Python</title>
	<link rel="icon" href="https://morvanzhou.github.io/static/img/description/tab_icon.png">
</head>
<body>
	<h1>爬虫测试1</h1>
	<p>
		这是一个在 <a href="https://morvanzhou.github.io/">莫烦Python</a>
		<a href="https://morvanzhou.github.io/tutorials/scraping">爬虫教程</a> 中的简单测试.
	</p>

</body>
</html>

2.BeatufulSoup 解析网页

Beautiful Soup 4.2.0 中文官网

0.BeatufulSoup的介绍

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。我们了解了网页 (html) 的基本构架, 知道了爬网页就是在这个构架中找到需要的信息. 那么找到需要的信息时, BeautifulSoup 就是一个找信息好帮手. 它能帮你又快有准地找到信息. 大大简化了使用难度。

1.安装

# Python 2+
pip install beautifulsoup4
#----------------------------------------------

最低0.47元/天解锁文章

小韩学长

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫基础总结

网络爬虫基础总结网络爬虫1. 爬虫简介网页结构合理的创建标题，有助于目录的生成2.BeatufulSoup 解析网页3.更多请求/下载方式4.加速你的爬虫5.高级爬虫这篇文章是对莫烦pyhton爬虫基础课进行一个总结，详细教程大家可以参考学习官网：https://morvanzhou.github.io/tutorials/data-manipulation/scraping/网络爬虫对于网...
复制链接

扫一扫