爬虫
倪畅
YTU&&SHU|CS小菜鸡|努力成为很厉害的人
展开
-
requests库使用
Requests是用python语言编写的,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比utllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。一句话,它是python实现的简单易用的HTTP库。 安装: pip install requests ...原创 2020-05-27 13:18:53 · 232 阅读 · 0 评论 -
urllib库使用
python内置的HTTP请求库,无需额外安装 urllib.request:请求模块 urllib.error:异常处理模块 urllib.parse:url解析模块 urllib.robotparser:robots.txt解析模块 1. request模块 1.1 urlopen urllib.request.urlopen(url, data,{timeout,}*,cafile=No...原创 2020-05-02 18:10:09 · 415 阅读 · 0 评论 -
数据抓取常用工具
爬虫的用途: 数据分析/人工智能数据集 作为社交软件冷启动 舆情监控 竞争对手监控 写爬虫的步骤: 数据抓取 库: requests、urllib、pycurl 工具:curl、wget、httpie 数据分析 数据存储 常用工具的使用: 1. curl: 安装: apt install curl 安装的时候可能会报错,有可能是openssl没装 apt install open...原创 2020-05-02 13:17:00 · 3955 阅读 · 0 评论