北京理工大学python课程嵩天老师笔记_第三次作业-MOOC学习笔记：Python网络爬虫与信息提取...

最新推荐文章于 2022-11-04 16:23:26 发布

你一直在玩儿

最新推荐文章于 2022-11-04 16:23:26 发布

阅读量533

点赞数

文章标签：北京理工大学python课程嵩天老师笔记

本文链接：https://blog.csdn.net/weixin_33758343/article/details/113710197

版权

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容，并完成各周作业

4.提供图片或网站显示的学习进度，证明学习的过程。

5.写一篇不少于1000字的学习笔记，谈一下学习的体会和收获。

学习完北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程后，受益匪浅。网络爬虫在如今的信息时代非常流行，是执行网页操作的重要方式。然而还有很多的Python知识是一知半解的，不过认真理解起来的话，应该不会有太大的问题。比如令我印象最深的是Python爬虫实战中的requests库的七个主要方法，几乎都是获取目标网页的信息。但是这个之所以放在前面来学，是因为它是Python爬虫当中最基础的部分之一。Python自带了很多基本的库，而我们看的爬虫是python最基本的库。有一些知识点并未完全清楚，都因为是时间关系，在听过之后直接通过的，所以在掌握及Python实际操作代码的时候带来一定的难度。而真正掌握网络爬虫还是需要花很长的时间。

主要学习到的知识点如下：

1.requests库的七种方法分别是request.request()、request.get()、request.head()、request.post()、request.put()、request.patch()、request.delete()。其中

request.request()是最基础的方法。这些方法都和HTML网页挂钩。获取头信息、申请POST、PUT、修改和删除等操作是这些方法的主要功能。Requests库同时也有2个重要对象，分别是Response对象和Request对象。

2.BeautifulSoup类的基本元素包括Tag,Name,Attributes,NavigableString。这个库是解析，遍历，维护“标签树”的功能库。不过在标签Tag内的内容也很重要，用Comment表示。

标签树的下行遍历包括：.contents：子节点的列表；.children：子节点的迭代类型；.descendants：子孙节点的迭代类型。

上行遍历包括：.parent：节点的父亲标签；.parents：节点先辈标签的迭代类型。

3.URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源，这带来了很大的方便。HTTP协议的URL示例是使用超级文本传输协议HTTP，提供超级文本信息服务的资源。

4.最后是讲解Scrapy,是一个庞大的网络爬虫框架，具有持续性，商业性，高可靠性等的特点，多用于企业。

Python对我们生活起了很重要的作用，现在的学习进度还只是初级阶段，还有很长的路要走。Python日常对我们对网页的信息提取提供了很大的方便，也节省了很多的时间。希望可以继续认真的学习老师的课程。对知识点进行系统的学习与归纳，有朝一日会对我们产生很大的帮助。