爬虫
努力发光的程序员
开始工作啦
展开
-
爬虫的第三天
聚焦爬虫:爬取页面中指定的页面内容 编码流程 指定url 发起请求 获取响应数据 数据解析 持久化存储 数据解析分类 正则 bs4 xpath 数据解析原理概述 解析的局部的文本内容都会在标签之间或者标签对应的属性中进行存储 1.进行指定标签的定位 2.标签或者标签对应的属性中存储的数据进行提取(解析) 正则解析爬取项目实战 糗事百科糗图爬取 import requests import re import os if __name__=='__main__': if not o原创 2021-03-03 20:16:11 · 114 阅读 · 2 评论 -
爬虫的第二天
简单爬虫实战 一、破解百度翻译 #需求:1、post请求(携带了参数)2、响应数据是一组json数据 import requests import json #指定url post_url='https://fanyi.baidu.com/sug' #进行UA伪装 headers={ 'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chro原创 2021-03-02 22:00:41 · 121 阅读 · 0 评论 -
爬虫的第一天
一、爬虫概述 1、概念:通过编写程序模拟浏览器上网,然后让其去互联网上爬取数据的过程 2、爬虫的分类: 1、通用爬虫:爬取一整张页面源码数据 2、聚焦爬虫:爬取页面中指定的局部数据 3、增量式爬虫:检测网站数据更新的情况,爬取的就是网站中最新的数据 3、反反爬策略:第一个反爬机制:robots.txt协议 二、requests模块的应用 1、作用:用来模拟浏览器发请求 2、编码流程 1、指定url 2、发起请求:requests.get/post 3、获取响应数据 4、持久化存储 3、环境安装:pip原创 2021-03-01 23:14:49 · 106 阅读 · 0 评论