愚公移山日记·9

愚公移山日记·9

学习进程

今天学习的还是爬虫的基础,在我自学python的开始时期就是对爬虫产生和浓厚的兴趣,虽然刚开始的时候也是一脸懵逼的学,但是直到今天我才发现当时那种硬着头皮学习的方法的好处,就是你尽管不理解它到底是什么意思,仅仅是死记硬背,然后重复的敲代码,当学完之后也许你会感觉一无所获,其实你仅仅是不知道你学习的东西的用处,当你突然在另一个地方发现了你之前只是死记硬背下来的东西,你会突然发现感觉很亲切,而且能懵懵懂懂的了解它的意思。我突然感觉小白就应该这样的去学,
就我个人经验来看,从一个编程零基础的小白开始学习python我推荐一种学习方法,当然这种方法会很费时间,虽然不是最有效率的,但我感觉是很有效果的,就是开始认准一个自学材料,然后认真的去学习,或者说是去背诵它,可能在学习(背完)完找个自习资料之后会感觉很迷茫,这个时候你就应该去找相同类型的学习材料,再去学习。
我感觉有一下几点好处,一是能够树立自信心,当你一看这些东西的时候,呵我之前都学过,你就会很轻松,二是能够产生对比,相同的知识点,在不同的材料种会有不同的表达方式,你自己也会在这两种或者更多种的资料进行对比对找到更加适合自己的方法。
爬虫有很多种的爬取方法下面我来做一下今天的学习总结,具体来说今天学习的网页抓取方法一共有三种,首先就是正则表达式,其次BeautifulSoup模块,最后是lxml模块.

正则表达式

正则表达式在各个编程语言中间或多或少的都会用到,它可以快速的匹配到符合指定的表达格式,在python爬虫代码中,正则表达式可以为我们提供抓取数据的快捷方式,可以很容易的适应未来的变化,但是存在难以构造,可读性差,用法过于脆弱的问题,在网页更新之后我们使用的正则表达式便会失效(哪怕是更新一个我们没有考虑到的一个空格,我们的正则表达式也会失效)

BeautifulSoup

BeautifulSoup是一个非常流行的python库,它可以解析网页,并且为我们提供定位内容的便捷接口,与正则表达式相比较,BeautifulSoup的代码可能会更复杂,但是它更加的容易构造和方便理解,而且我们不必担心网页更新的增加新的空格之类的小变化,而且可以在非常不完整的网站代码中提取数据。

lxml

lxml由C语言编写,解析速度会比BeautifulSoup更快一些,使用的方法简单,但是他的安装过程会更复杂些。
总结分析三种用法:
如果我们要求安装简单,并且对于时间要求并不是特别高的话我们可以使用BeautifulSoup,如果我们仅仅是需要抓取少量的视觉并且想要避免额外的依赖,可以使用正则表达式,当然,通常情况下lxml是抓取数据的最佳选择,这种方法既快速又健壮。

好啦今天的分享就到这里吧

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页