python爬虫requests+lxml的使用（入门级）

最新推荐文章于 2024-04-21 16:01:49 发布

pandaHe_Status

最新推荐文章于 2024-04-21 16:01:49 发布

阅读量2.8k

点赞数 4

分类专栏： python爬虫文章标签： python爬虫requests lxml xpath 入门

本文链接：https://blog.csdn.net/weixin_43321726/article/details/103157758

版权

python爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

python爬虫requests+lxml的使用（入门级）

爬虫流程
1.用requests库的get方法发起请求
2.获取网页源码
3.用lxml中的xpath语法进行解析
4.对拿到的数据进行遍历
5.保存为txt文件

A.获取网页源码

import requests
from lxml import etree
url = 'http://qiushi.92game.net/'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
print(response.text)

打印出网页的HTML
B.将内容遍历打印出来

import requests
from lxml import etree
url = 'http://www.lovehhy.net/Joke/Detail/QSBK/3'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
#print(response.text)
html = etree.HTML(response.text)
a_list = html.xpath('//div[@id="endtext"]/text()')
print(a_list)
for i in a_list:
    print(i)

在这里插入图片描述 C.将内容进行保存为.txt文件
整体代码

import requests
from lxml import etree
url = 'http://www.lovehhy.net/Joke/Detail/QSBK/3'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
#print(response.text)
html = etree.HTML(response.text)
a_list = html.xpath('//div[@id="endtext"]/text()')
#print(a_list)
with open('qsbk.txt','w',encoding='utf-8') as fp:
    for i in zip(a_list):
        a = i
        print(a)

        fp.write(str(a)+'\n')

最后的效果
在这里插入图片描述

pandaHe_Status

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
python爬虫requests+lxml的使用（入门级）

python爬虫requests+lxml的使用（入门级）爬虫流程1.用requests库的get方法发起请求2.获取网页源码3.用lxml中的xpath语法进行解析4.对拿到的数据进行遍历5.保存为txt文件A.获取网页源码import requestsfrom lxml import etreeurl = 'http://qiushi.92game.net/'header...
复制链接

扫一扫