爬取前的准备
糗事百科官网: https://www.qiushibaike.com
段子网址: https://www.qiushibaike.com/text
关于解析html博主选择的方法是使用xpath,如有不懂的同学,可看下面两个表格。如果想要深入学习xpath的相关知识可点击博主给的官方文档的链接进行学习,博主在此声明是为了让读者们能够理解解析式的具体含义。
官网网址: https://lxml.de/tutorial.html
路径表达式
匹配属性
1.1 查看网页
根据上图标记部分可以看到我们主要的要点如下。
-
整体部分
-
作者名称
-
文本内容
-
标签翻页
1.2 标签分析
首先我们需要知道我们爬取的所有内容所在标签
通过查看开发者选项,发现 <div class ="coll old-style-coll">
这个标签对应的正是所有内容的整体存放位置,那么我们也可知道之后的所有内容都是从此标签的子标签内提取得到。
分析一番后,我们可以得到获取所有文本内容的解析式如下:
//div[@class = 'col1 old-style-col1']/div
作者名称所在位置
由上图我们可以看到作者的位置在 <h2></h2>
这个标签中。
分析一番后ÿ