Python小爬虫的一般思路

最新推荐文章于 2024-06-09 17:42:29 发布

偶像迈特凯：也是爷的青春

最新推荐文章于 2024-06-09 17:42:29 发布

阅读量196

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_42735156/article/details/103845942

版权

Python 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

小爬虫一般步骤:
    (1)下载数据
        第三方包
        urllib:系统自带,连接网络,urlopne,Request
        如果下载的网址是https,需要导入ssl
        
        准备数据
            网址:
            headres(请求头):
        封装请求
            request = Request(网址,请求头)
        打开连接
            conn = urlopen(request)
        判断是否连接成功
            if conn.code == 200:
                data = conn.read()
        文件下载
            from urllib.request import urlretrieve
            urlretrieve("文件地址","存储地址")
    
    (2)处理数据
        解压(可选项)
        编码:网页编码格式,meta charset="编码格式"
            data.decode(encoding=编码格式)
        转换数据为HTML格式
            lxml:etree
            html = etree.HTML(data)
        获取需要的数据
            #   //:前是什么东西我们都不考虑
            正确取出信息的方式为"//标签名[@属性名='属性值']/标签名[@属性名='属性值']"
            #   获取属性:@属性名
            #   如果同一级出现多个标签 例:<div id="pic-meinv" class="pic-meinv" style="margin-bottom: 0;">
            #   正确进入下一级的方式为"//div[@id='pic-meinv']/a/img"
            获取内容:text()
            内容列表 = html.xpath("")
        循环遍历内容列表
            内容
            字符串方法进行处理

偶像迈特凯：也是爷的青春

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python小爬虫的一般思路

小爬虫一般步骤: (1)下载数据第三方包 urllib:系统自带,连接网络,urlopne,Request 如果下载的网址是https,需要导入ssl 准备数据网址: headres(请求头): 封装请求 reque...
复制链接

扫一扫

专栏目录