python 网页爬虫作业调度_第三次作业-MOOC学习笔记:Python网络爬虫与信息提取

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

58ea955d3633e61c8e45dc3dccbb89ac.png

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习笔记与收获

第一周:requests库

1.requests库的安装:pip install requests

2.测试requests库的安装:import requests

r = requests.get("http://www.baidu.com")

r.status_code 状态码

200 访问成功

r.encoding = 'utf-8'

r.text

3.抓取百度页面操作截图:

8e0ca8596d07aad6480cc36134e3bc39.png

4.requests库的七个主要方法

requests.request():创造一个请求

requests.get():获取网页的主要方法

requests.head():获取网页头信息

requests.post():向网页提交post请求的方法

requests.put():向网页提交put请求的方法

requests.patch():向网页提交局部修改请求

requests.delete():向网页提交删除请求

第二周:beautiful soup

1.beautiful soup的安装:pip install beautifulsoup4

2.beautiful soup库是解析、遍历、维护“标签树”的功能库。

3.beautiful soup库解析器有html.parser、lxml、xml、html5lib

---恢复内容结束---

1.注册中国大学MOOC

2.选择北京理工大学嵩天老师的《Python网络爬虫与信息提取》MOOC课程

3.学习完成第0周至第4周的课程内容,并完成各周作业

4.提供图片或网站显示的学习进度,证明学习的过程。

58ea955d3633e61c8e45dc3dccbb89ac.png

8fdbe363cff0ae9c7c8899373b6a1825.png

d0f3d483482019c5ab1e34532bda69d4.png

5.写一篇不少于1000字的学习笔记,谈一下学习的体会和收获。

学习笔记与收获

第一周:requests库

1.requests库的安装:pip install requests

2.测试requests库的安装:import requests

r = requests.get("http://www.baidu.com")

r.status_code 状态码

200 访问成功

r.encoding = 'utf-8'

r.text

3.抓取百度页面操作截图:

8e0ca8596d07aad6480cc36134e3bc39.png

4.requests库的七个主要方法

requests.request():创造一个请求

requests.get():获取网页的主要方法

requests.head():获取网页头信息

requests.post():向网页提交post请求的方法

requests.put():向网页提交put请求的方法

requests.patch():向网页提交局部修改请求

requests.delete():向网页提交删除请求

第二周:beautiful soup

1.beautiful soup的安装:pip install beautifulsoup4

2.beautiful soup库是解析、遍历、维护“标签树”的功能库。

3.beautiful soup库解析器有html.parser、lxml、xml、html5lib

第三周:re正则表达式

1.正则表达式常用操作符:*表示前一个字符0次或无限次扩展,例如:abc*为ab、abc、abcc、abccc...

+表示前一个字符1次或无限次扩展,例如:abc+为abc、abcc、abccc...

?表示前一个字符0次或1次扩展,例如:abc?为ab、abc

{m}表示扩展前一个字符m次,例如ab{2}c为abbc

{m,n}表示扩展前一个字符m到n次,例如ab{1,3}c为abc、abbc、abbbc

2.re的主要功能函数

re.search():在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象

re.match():在一个字符串的开始位置起匹配正则表达式,返回match对象

re.findall():搜索字符串

re.split():将一个字符串按照正则表达式匹配结果进行分割,返回列表类型

re.finditer():搜索字符串,返回匹配结果的迭代类型

re.sub():在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

第四周:scrapy爬虫框架

1.Engine:控制所有模块之间的数据流

2.Downloader:根据请求下载网页

3.Scheduler:对所有爬取请求进行调度管理

4.Downloader Middleware实施Engine、Scheduler和Downloader之间进行用户可配置的控制

5.Spider解析Downloader返回的响应

6.Item Pipelines的操作包括:清理、检查和查重爬取项中的HTML数据、将数据存储到数据库

7.Scrapy的常用命令:startproject:创建一个新工程

genspider:创建一个爬虫

settings:获得爬虫配置信息

crawl:运行一个爬虫

收获

通过学习嵩天老师的《Python网络爬虫与信息提取》,对爬虫知识有了部分了解。网络爬虫又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取信息的程序或者脚本。爬虫技术是通过链接地址来寻找网页。通过这几天的学习,也体会到爬虫技术的有趣之处,但是要掌握这门技术,还是需要花很多心思去学习。在平台学习的过程中,也发现资源的广泛性,只要想学习,就可以从平台上寻找到各种有用的课程,通过学习课程,掌握知识。要学会好好利用这些宝贵的资源。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值