【python教程入门学习】用python3教你任意Html主内容提取

最新推荐文章于 2023-08-22 22:15:00 发布

燕山588

最新推荐文章于 2023-08-22 22:15:00 发布

阅读量1k

点赞数

分类专栏：编程程序员 python 文章标签： python 爬虫 pycharm 后端人工智能

本文链接：https://blog.csdn.net/kj7762/article/details/120722810

版权

本文介绍了Python3爬虫的基础工具，包括requests、lxml和json库的使用。通过对比分析，强调了requests在HTTP请求中的优势，lxml在HTML解析中的高效性，以及json库在处理JSON数据的便捷性。接着讨论了如何确定爬取方向，以电竞类语料为例，提出如何从百度新闻获取丰富文章语料，并探讨了多种正文提取方法及其优缺点。

摘要由CSDN通过智能技术生成

0x1 工具准备

工欲善其事必先利其器，爬取语料的根基便是基于python。

我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。

简单介绍一个各模块的功能

01｜requests

requests是一个Python第三方库，处理URL资源特别方便。它的官方文档上写着大大口号：HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib使用体验，笔者认为requests的使用体验比urllib高了一个数量级。

我们简单的比较一下：

urllib:

1import urllib
2 2import urllib 
3 
4URL_GET = "https://api.douban.com/v2/event/list" 
5#构建请求参数 
6params = urllib.urlencode({
   'loc':'108288','day_type':'weekend','type':'exhibition'}) 
7 
8#发送请求 
9response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)
10#Response Headers11print(response.info())
12#Response Code
13print(response.getcode())
14#Response Body
15print(response.read())

requests：

1import requests 
2 
3URL_GET = "https://api.douban.com/v2/event/list" 
4#构建请求参数 
5params = {
   'loc':'108288','day_type':'weekend','type':'exhibition'} 
6 
7#发送请求 
8response = requests.get(URL_GET,params