学完python基础,想学习爬虫的新手,这里有你想要的东西

刚学完python基础,想学习爬虫的新手,这里有你想要的东西。

本文着重点在于教新手如何学习爬虫,并且会以外行人的思维进行形象地讲解。最近我一兄弟想学,我就想写个教学给他,然后想不如分享到网络上,给热爱学习的人们一起学习探讨。

环境安装

python3.7.1

pip install requests

pip install beautifulsoup4

pip install lxml

技术讲解

requests库

requests一般用于发起http请求,并且拿到请求的结果。http常用的请求有两种,GET和POST,爬虫主要用的是GET请求。

在不懂http,https和dns,TCP/IP等协议的情况下,我直接打个比方来解释一下什么是GET请求,以360浏览器为例,人在360浏览器输入www.baidu.com,然后敲击enter键,直到页面出现,整个过程,我们可以抽象为我们向百度服务器发起的一次GET请求。

更专业,更详细的解释,自己去百度学习吧。

如何使用requests库来模拟浏览器的行为来获取页面内容呢?

示例代码如下

import requests

web = requests.get(‘https://www.baidu.com’) #向百度发起一次get请求,返回请求结果的实体类

print(web.status_code) #请求返回的状态码,200是OK,404是页面不存在,500是错误,更多自己百度搜索

print(type(web.content)) #页面内容的数据类型是bytes,因此需要解码

print(type(web.content.decode()))

print(web.content.decode()) #解码之后,得到的页面内容是结构化的字符串

这样看起来,我们获取到的页面内容不是我们在浏览器看到的图形化界面,而是字符串,更像是一些代码。如果你学过html和css那就不用多说了。没学过也不要紧,现在可以简单学一下,也就花几分钟了解一下就够用了。

html是一种标记语言,可以被浏览器执行,然后呈现出可视化的图形界面。如果你把web.content.decode()这一串字符串保存在test.html里,然后双击打开,你会看到图形化界面的,只不过有些图片可能显示不了,这里就不细说了。

html其实很好理解,不要想得太复杂,就是一段有规律的格式化的文本。

为了让学习变得轻松,高效!今天给大家分享一套教学资源,帮助大家在成为Python高手的道路上披荆斩棘, 加我们的Python学习秋秋圈:前面是784,中间758,后面是214 ,管理会给你发送你需要的学习资源,每晚八点免费直播授课,讲解Python案例,同时还有Python大牛在线解答问题!

其基本格式就是

html文本的标签一般都是成双成对,有始有终的,比如和是一队,千万不能拆散,拆散就乱套了。少数除外比如
是换行用的,可以不用配对。

这里我们主要讲body标签,网页的主要内容都是在这个标签里显示的,比如标题,段落,图片等

在test.html里我们写入一下代码并且保存。

html更多标签所代表的意义可以去这里学习 http://www.runoob.com/html/ht…

beautifulsoup4库

bs4(简称)库是用于解析格式化文本,提取数据用的库。

我们利用requests库的get函数拿到网页的内容是一段格式化的字符串,接下来就可以用bs4来解析它。

解析的示例代码如下

注意,tag保存的不是字符串,而是bs4模块中的一个标签实体类,我们主要需要知道它的attrs属性和string属性,方便我们拿到一些我们想要的文本和信息,比如a标签的href属性就保存在attrs里。

总结

本文主要讲了如何使用requests获取网页文本内容,以及如何解析html文本,更多更好用的爬虫库

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
英语中单词重不重要?重要!就像再高的大楼也是一块一块的砖石垒集而成的。我们学英语时背记单词已成了必不可少的一项内容,但是,浩瀚无垠的词汇海洋如何一口喝得完呢?   这时,我们需要水滴石穿的精神,长期坚持,积少成多;但是,每天抽出专门的时间和精力来背记单词,即枯燥又费时,也不是每个人能坚持持长久的。有没有一个折中的方法呢?即能每天背记一定量的单词,又不必花费专门的时间和精力呢?   ---答案是:有!   点点滴滴背单词就是为解决这个问题所写的,通过在电脑屏幕显示一浮动窗口,不断显示英语单词,发出读音,您在工作或娱乐时偶尔瞧一两眼即可,不必特意去背,这样,在您不知不觉中,就已点点滴滴地背记了大量的单词;而且,其程序的显示窗口可以像Windows的任务条一样,固定位置或自动隐藏,一点也不影响您做其它事;甚至,它也可以后台运行,在任何您指定的窗口的标题条上显示单词;单词综合测验系统有助于您检验对单词的掌握度和加深对单词的熟悉度;还可以输出考题打印成卷。 主要功能: 1、 带有48大词库,约1170719个单词。而且新的词库不断增加中,点击这里了解和获取。 2、 强大的语音发音引擎TTS(Text To Speech)支持,准确、流畅地读诵各种英语单词和英语文章。而且可以随意控制发音角色及发音速度等。 3、 方便易用的词库编辑器使您可以修改、编辑旧有的词库,还可添加新的单词。 4、 文章朗读器可以使您轻松自在地聆听和学习长篇的英文文章。 5、 多样的单词窗口显示技术,使您可以更加方便地背记单词和工作娱乐,互不冲突。   (1)Windows任务条式窗口显示:就像Windows的任务条一样,固定位置或者自动隐藏,一点也不影响您做其它事。   (2)普通悬浮式窗口显示:可以选择固定窗体大小或者随单词不同而自动调整大小。   (3)其它程序窗口标题条显示:可以在指定的一个窗口的标题条上显示单词;也可以所有的窗口的标题条上显示单词;也可以总在最上面的一个窗口的标题条上显示单词。 6、 支持窗口界面的换肤。您可以随意改变单词显示窗口的背景颜色,也可以换用各种图片做窗口的背景。 7、 支持单词、音标和解释的三维文字显示效果。 8、 可以保存和读取单词学习的进度。 9、 遇到不熟悉或难记的单词可以加入生词本,以后再重点背记。 10、 单词的显示方式多种多样:   (1)可以由程序控制自动显示;也可以手动显示,您按下键盘任意键则显示下一个单词。   (2)可以选择是顺序显示单词、逆序显示单词或随机次序显示单词。   (3)可以控制单词轮换的间隔时间。   (4)可以选择是否词意缓出,可以控制词意缓出的时间。   (5)可以选择单词、音标和解释的显示或不显示。 11、 方便有效的单词分组功能,使您能更好的背记单词。 12、 可以自定义热键来操作多种常用的功能。 13、 单词综合测验系统有助于您检验对单词的掌握度和加深对单词的熟悉度;还可以输出考题打印成卷。 14、 附带了英语语法、学习常识、不规则动词表等等很多学习与参考资料。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值