本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。最近我一兄弟想学,我就想写个教学给他,然后想不如分享到网络上,给热爱学习的人们一起学习探讨。
![03be1e83eb4efbd21fd70e3af1fe325a.png](https://img-blog.csdnimg.cn/img_convert/03be1e83eb4efbd21fd70e3af1fe325a.png)
送你需要的学习资源,群内每晚八点免费直播授课,讲解Python案例,同时还有Python大牛在线解答问题!
环境安装
python3.7.1
pip install requests
pip install beautifulsoup4
pip install lxml
技术讲解
requests库
requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。
在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。
更专业,更详细的解释,自己去百度学习吧。
如何使用requests库来模拟浏览器的行为来获取页面内容呢?
示例代码如下
import requests
web = requests.get('https://www.baidu.com') #向百度发起一次get请求,返回请求结果的实体类
print(web.status_code) #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索
print(type(web.content)) #页面内容的数据类型是bytes,因此需要解码
print(type(web.content.decode()))
print(web.content.decode()) #解码之后,得到的页面内容是结构化的字符串
这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。
html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。
html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。
其基本格式就是
![d63faf975ad7298ea769a1ae39ddf673.png](https://img-blog.csdnimg.cn/img_convert/d63faf975ad7298ea769a1ae39ddf673.png)
html文本的标签一般都是成双成对,有始有终的,比如<body>和</body>是一队,千万不能拆散,拆散就乱套了。少数除外比如
是换行用的,可以不用配对。
这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等
在test.html里我们写入一下代码并且保存。
![ba47fce28e0e7057fd73cd1ddfde378b.png](https://img-blog.csdnimg.cn/img_convert/ba47fce28e0e7057fd73cd1ddfde378b.png)
html更多标签所代表的意义可以去这里学习 http://www.runoob.com/html/ht...
beautifulsoup4库
bs4(简称)库是用于解析格式化文本,提取数据用的库。
我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。
解析的示例代码如下
![29f619299d4927e542b4398404524af6.png](https://img-blog.csdnimg.cn/img_convert/29f619299d4927e542b4398404524af6.png)
![9ea739d15d3677bd760d2bb5dabd7818.png](https://img-blog.csdnimg.cn/img_convert/9ea739d15d3677bd760d2bb5dabd7818.png)
![c0fea144559c1801649cc9f715e02f9b.png](https://img-blog.csdnimg.cn/img_convert/c0fea144559c1801649cc9f715e02f9b.png)
注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。
总结
本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库
成长离不开与优秀的伙伴共同学习,如果你需要好的学习环境,好的学习资源,项目教程,零基础学习,这里欢迎每一位热爱Python的小伙伴,点击:Python学习圈