《Python编程无师自通》第20章融会贯通

最新推荐文章于 2024-07-10 10:43:42 发布

人民邮电出版社有限公司

最新推荐文章于 2024-07-10 10:43:42 发布

阅读量84

点赞数

分类专栏： Python编程无师自通

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rmyd01/article/details/118604807

版权

Python编程无师自通专栏收录该内容

38 篇文章 1 订阅 ¥37.76 ¥99.00

订阅专栏

本章介绍了如何使用Python开发网络爬虫，首先讲解了HTML的基础知识，然后通过实例展示了如何爬取Google新闻的HTML并提取新闻链接。挑战练习包括将爬取的头条保存至文件。

摘要由CSDN通过智能技术生成

第20章　融会贯通

“神话和传说的魔力在我们这一代成真。只要在键盘上敲下正确的咒语，显示屏就像是活了过来，里面都是以前不可能存在或发生的事情。”

——费德里克·布鲁克斯（Frederick Brooks）

本章中，我们将开发一个网络爬虫：从网站上提取数据的程序。成功之后，你将拥有从人类目前最大的信息存储地收集数据的能力。网络爬虫十分强大，开发起来又很简单，这也是我爱上编程的原因之一。我希望它也能吸引你的注意。

20.1　HTML

在开发网络爬虫之前，我们需要快速了解HTML：超文本标记语言。HTML是程序员开发网站时用到的最基本的语言之一，另外两个为CSS和JavaScript。HTML是赋予网站结构的语言，由浏览器用来布局页面的诸多标签组成。单纯使用HTML就可以打造一个完整的网站，不过无法做到互动与美观，因为其缺乏赋予网站活力的JavaScript，以及赋予网站风格的CSS。但是的的确确是一个网站。下例是仅展示文本Hello, World!的网站代码：

# http://tinyurl.com/jptzkvp

<!--This is a comment in HTML.
Save this file as index.html

了解本专栏

人民邮电出版社有限公司

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

人民邮电出版社有限公司 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。