python 定位网页后如何打开第二个网页_Python学习第141课--Python爬虫简介

【每天几分钟,从零入门python编程的世界!】

2503fde779ff6b3374712644c35aa676.png

今天我们简单的了解下网络爬虫,网络爬虫其实就是一个自动获取网页内容的程序。

Python的爬虫需要用到一个第三方的库requests

requests库可以在git bash中使用命令pip install requests进行安装

如果你安装了anaconda的话,它里面就自带这个requests库


那么要使用这个requests库,还是跟以前一样,用import进行引入。然后我们请求网易的这个网站的网址,然后把获取到的网页的源代码打印出来。

代码如下:

89d0370fe74bb3f23f840d5767e47f48.png


运行结果:

7af6fa863e128630b4c613abccca12bb.png


由于打印的结果是非常长的文本字符串,所以只截取其中一小部分。

我们平常上网是这样一个过程

在地址栏输入网址,其实就是请求该网址指向的网站服务器,服务器会把相应的网页源代码以及图片等资源,发送到我们的电脑或者手机上,然后我们的电脑或者手机上面的浏览器会对服务器发送过来的网页源代码等资源进行解析,然后渲染成我们人类能够看得懂的内容


现在我们把刚刚用requests请求到的网易的网页源代码,在Python里面进行解析。Python里面没有浏览器,那么怎么进行解析呢?

这就要用到另一个第三方库Beautiful Soup来进行解析。

同样,如果你安装了anaconda,它就自带了这个库如果你没有安装anaconda,可以在git bash中用pip install BeautifulSoup来进行安装。

(关于Beautiful Soup,如果你感兴趣,可以自行百度,查看它的文档)。

2d0ae021e81d022ca893c91006299894.png


现在我们在Python中,引入BeautifulSoup这个第三方库对请求到的网页源代码进行解析。


代码如下:

6331e8ad6c4bcdaefc2a62e6cfdfb5d5.png


以上代码说明

BeautifulSoup这个第三方库就相当于Python里面的浏览器

Python是一门面向对象的编程语言,它里面的万事万物都可以看做是一个对象。所以这里用BeautifulSoup()函数可以创建出一个专门的对象,这个对象是专门对接BeautifulSoup的对象。

soup = BeautifulSoup(a,"html.parser")返回的结果是一个对象,保存在soup中。第一个参数a,是要解析的字符串对象,这里的a就是使用requests请求到的网页源代码的文本字符串,第二个参数"html.parser"表示解析成什么格式的文件,BeautifulSoup可以解析很多种格式的文件,在这里html.parser就表示解析成html格式的文件,因为网页文件就是html文件。

print(soup.p)表示把解析出来的html格式的对象soup的第一个段落打印出来,p在html标记语言中表示段落标签。关于html相关的知识,如果是没有接触过web前端相关知识的小伙伴,可能不是很清楚,后面会介绍。


以上代码运行结果:

1a1db01e6bbe90c51d518b79615f6bd4.png


我们打开网易官网,

484fa0575782297ce12ba31af9970b33.png


我们在网易官网网页上就看到了“曾国藩靠什么中年逆袭”这个文章标题(当然这是我几个月前操作时的结果,现在网易官网网页上的内容可能已经变了,但是这个问题不影响我们学习,网页内容变了,我们的代码爬取到的内容肯定是跟网页一样的),这就验证了我们在Python中用BeautifulSoup解析网易的网页源代码的结果。

我是时问新,欢迎关注我。跟我一起从零开始学习Python,每天花一点时间,开启python编程新世界的大门,领略新的风光,让人生多一种可能!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值