python网络爬虫阅读报告_软件工程阅读笔记(一)之Python网络爬虫

在王老师给我们发布作业之后,我看到Python爬虫,但是Python基础语法我还不会。所以我在图书馆里借了一本Python网络爬虫教程。

所谓网页解析器,简单地说就是用来解析HTML网页的工具,它主要用于从HTML网页信息中提取需要的、有价值的数据和链接。在Python中解析网页主要用到正则表达式、Lxml库、Beautiful Soup这三种工具。

一是正则表达式。正则表达式描述了一种字符串匹配的模式。可以用来检查一个串是否含有某种子串,将匹配的子串替换或者从某个串中取出符合某个条件的子串等。正则表达式的优点是基本能用正则表达式来提取想要的所有信息,效率比较高,但缺点也很明显——正则表达式不是很直观,写起来比较复杂。

二是Lxml库。这个库使用的是XPath语法,同样是效率比较高的解析库。Xpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性进行遍历。XPath比较直观易懂,配合Chrome浏览器或Firefox浏览器,写起来非常简单,它的代码速度运行快且健壮,一般来说是解析数据的最佳选择。

三是Beautiful Soup。Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库。它能够通过我们喜欢的转换器实现惯用的文档导航、查找。Beautiful Soup编写效率高,能帮程序员节省数小时甚至数天的工作时间。Beautiful Soup比较简单易学,但相比Lxml和正则表达式,解析速度慢很多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值