爬虫回顾1

本文详细阐述了爬虫的法律边界、robots协议的应用,以及爬虫的通用与定向类型。深入讲解了爬虫流程、HTML结构解析、抓取与解析技巧,涉及正则表达式、CSS选择器、JavaScript、数据持久化和反爬策略破解。
摘要由CSDN通过智能技术生成
1. 爬虫的合法性探讨
    ~ 法不禁止即为许可
    ~ robots协议
    ~ 隐匿身份
        - 高匿商业代理
        - TOR(洋葱路由)

2. 爬虫的分类
    ~ 通用爬虫
    ~ 定向爬虫

3. 爬虫程序的一般步骤
    URL ---> Universal Resource Locator
    URI ---> Universal Resource Identifier
    URI = URL + URN
    协议://用户名:口令@域名或IP地址:端口/路径1/路径2/资源名称
    https://www.baidu.com:443/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png

    HTTP / HTTPS ---> 超文本传输协议

    HTTP请求 --------> 服务器
        请求行 - 命令(GET/POST) 资源路径 协议版本
        请求头 - 键值对
        空行
        消息体 - 发给服务器的数据

    HTTP响应 <-------- 服务器
        响应行 - 协议版本 响应状态码
        响应头 - 键值对
            ~ content-type ---> MIME
                - text/html
                - application/json
                - text/xml
                - application/pdf
                - image/jpeg
                - image/png
        空行
        消息体 - 服务器返回的数据

    ~ 抓取页面
        - urllib
        - requests
            get() / post() ---> Response ---> text / content / json()
            Session ---> get() / post()
    ~ 解析页面
    ~ 数据持久化

4. HTML页面的结构
    超文本标签语言 ---> 所有的内容都放在标签下

    ~ 标签:承载内容
        <p> / <h1> / <a> / <img> / <li>
    ~ CSS(Cascading Style Sheet):页面渲染
        选择器 ---> 样式属性名: 样式属性值
        - 标签选择器
        - 类选择器
        - ID选择器
        - 父子选择器 ---> div > p
        -
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值