Python网络爬虫
oasis1500
湖南大学电子专业学生,业余代码爱好者
展开
-
Python爬虫笔记2-静态网页爬取
静态网页爬取安装Requests库获取响应内容定制Requests传递URL参数定制请求头发送POST请求超时Request爬虫实践:TOP250电影数据 静态网站:纯粹HTML格式的网页,AJAX动态加载网页的数据不一定出现在HTML中,给爬虫增加了难度. 安装Requests库 pip install requests 获取响应内容 import requests r = requests.g...原创 2019-10-25 07:50:29 · 404 阅读 · 0 评论 -
Python爬虫笔记1-基本概念
基本概念流程1.获取网页2.解析网页3.储存数据 流程 1.获取网页 基础技术:request、urllib、selenium(模拟浏览器) 进阶技术:多进程多线程抓取、登录抓取、突破IP封禁和服务器抓取 2.解析网页 基础技术:re正则表达式、BeautifulSoup和Lxml 进阶技术:解决中文乱码 3.储存数据 基础技术:存入txt、csv文件 进阶技术:存入MySQL、MongDB数据库...原创 2019-10-11 04:15:24 · 556 阅读 · 0 评论