【python教程入门学习】用python3教你任意Html主内容提取

本文介绍了Python3爬虫的基础工具,包括requests、lxml和json库的使用。通过对比分析,强调了requests在HTTP请求中的优势,lxml在HTML解析中的高效性,以及json库在处理JSON数据的便捷性。接着讨论了如何确定爬取方向,以电竞类语料为例,提出如何从百度新闻获取丰富文章语料,并探讨了多种正文提取方法及其优缺点。
摘要由CSDN通过智能技术生成

0x1 工具准备

工欲善其事必先利其器,爬取语料的根基便是基于python。

我们基于python3进行开发,主要使用以下几个模块:requests、lxml、json。

简单介绍一个各模块的功能

01|requests

requests是一个Python第三方库,处理URL资源特别方便。它的官方文档上写着大大口号:HTTP for Humans(为人类使用HTTP而生)。相比python自带的urllib使用体验,笔者认为requests的使用体验比urllib高了一个数量级。

我们简单的比较一下:

urllib:

1import urllib
2 2import urllib 
3 
4URL_GET = "https://api.douban.com/v2/event/list" 
5#构建请求参数 
6params = urllib.urlencode({
   'loc':'108288','day_type':'weekend','type':'exhibition'}) 
7 
8#发送请求 
9response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)
10#Response Headers11print(response.info())
12#Response Code
13print(response.getcode())
14#Response Body
15print(response.read()) 

requests:

1import requests 
2 
3URL_GET = "https://api.douban.com/v2/event/list" 
4#构建请求参数 
5params = {
   'loc':'108288','day_type':'weekend','type':'exhibition'} 
6 
7#发送请求 
8response = requests.get(URL_GET,params
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值