使用requests和 xpath模块爬取网页内容

最新推荐文章于 2024-05-14 22:18:18 发布

小C的博客

最新推荐文章于 2024-05-14 22:18:18 发布

阅读量1.7k

点赞数 2

文章标签： xpath python

本文链接：https://blog.csdn.net/qq_40981730/article/details/106579631

版权

本文介绍了如何使用requests库和xpath模块进行网页内容的爬取。通过动态设置UserAgent，结合谷歌浏览器的开发者工具获取xpath表达式，即使不熟悉xpath也能高效完成网页解析工作。

摘要由CSDN通过智能技术生成

1.使用requests和 xpath模块爬取网页内容

1.from fake_useragent import UserAgent
动态设置消息头
使用下面模块爬取网页内容
网页解析使用xpath
xpath 语法最简单使用谷歌浏览器定位标签 copy xpath

#!/usr/bin/env python
#-*- coding:utf-8 -*-
"""
@author: zhengxianjun
@contact: 1596492090@qq.com
@datetime:2020/6/5 22:25
@software: PyCharm 
"""

if __name__ == '__main__':
    """
    使用下面模块 爬取网页内容
    网页解析使用xpath
    xpath 语法 最简单使用谷歌浏览器 定位标签 copy xpath
    
    """
    import requests
    import re
    from lxml import etree
    from fake_useragent import UserAgent

    # 消息头 随机选取
    headers = {
        'User-Agent': UserAgent().random
    }

    url = ''
    # 1.连接请求 解析HTML
    resp = requests.get(url=url, headers=headers).content.decode('utf8')
    html = etree.HTML(resp)

    # 11.如果是Ajax请求 直接解析json数据 这个比较好处理
    # resp = reques

最低0.47元/天解锁文章

小C的博客

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
使用requests和 xpath模块爬取网页内容

1.使用requests和 xpath模块爬取网页内容1.from fake_useragent import UserAgent动态设置消息头使用下面模块爬取网页内容网页解析使用xpathxpath 语法最简单使用谷歌浏览器定位标签 copy xpath#!/usr/bin/env python#-*- coding:utf-8 -*-"""@author: zhengxianjun@contact: 1596492090@qq.com@datetime:2020/6/5 22
复制链接

扫一扫