爬虫
文章平均质量分 57
niunai96
这个作者很懒,什么都没留下…
展开
-
爬虫1-基础理论、HTTP协议
1.首先说一下我们平时上网获取信息的过程,如图所示Request:用户将自己的信息通过浏览器(socket client)发送给服务器(socket server)Response:服务器接收请求,分析用户发来的请求信息,然后返回数据(返回的数据中可能包含其他链接,如:图片,js,css等)浏览器在接收Response后,会解析其内容来显示给用户,而爬虫程序在模拟浏览器发送请求然后接收Respon...原创 2018-06-16 16:10:18 · 267 阅读 · 0 评论 -
爬虫2--爬取豆瓣网热映电影
1.爬取一部电影的详细内容from bs4 import BeautifulSoupimport requests#获取爬取的网址url=requests.get('https://movie.douban.com/subject/24773958/')#获取网页源代码v_source=BeautifulSoup(url.text,'lxml')# print(v_source)#爬...原创 2018-06-16 20:35:52 · 470 阅读 · 0 评论 -
爬虫3--爬取王者荣耀皮肤
1.首先我们要找到所有英雄列表百度“王者荣耀”进入官网,进入https://pvp.qq.com/,按F12进入调试界面,然后按F5刷新界面,图中标识的herolist.json文件就是我们所需要的英雄列表,其中包括英雄编号、英雄名称、英雄类型、皮肤的名称等信息,在文件上右击复制链接。import urllib.requestimport jsonimport os#获取王者荣耀皮肤地址w...原创 2018-06-16 21:33:43 · 3466 阅读 · 3 评论 -
Scrapy架构图
组件engine爬虫引擎:负责控制各个组件之间的数据流,当某些操作事件被触发后,都是通过engine来处理downloader下载器:通过爬虫引擎请求下载网络数据,并将结果响应给引擎itempipe管道:负责处理引擎返回的spider解析后的数据,并将数据持久化,例如将数据存储为数据库或文件spider爬虫:发出请求给引擎,并且处理引擎返回给它的下载器下载...原创 2018-07-20 20:06:34 · 333 阅读 · 0 评论