爬虫
世外来客
这个作者很懒,什么都没留下…
展开
-
分布式爬虫scrapy-redis源码超级详解
这几天完成了分布式爬虫的学习,发现了解scrapy-redis源代码对于分布式爬虫的学习真的很重要,废话少说,直接上干货:文章目录1.创建项目2.源代码解析2.1 Connection.py2.2 defaults.py2.3 dupefilter.py2.4 picklecompat.py2.5 pipeline.py2.6 queue.py2.7 scheduler.py2.8 spider...原创 2020-04-14 18:55:07 · 629 阅读 · 2 评论 -
数据库不能不了解的知识点(下)
上节我们说到,由于我很菜,所以《数据库不能不了解的知识点(上)》是以MySQL为主,而此篇是我个人整理的一些SQL知识点,不求大佬打赏,但求大佬用的上。一、什么是SQL?SQL是Structured Query Language的缩写,意思是结构化查询语言,是一种在数据库管理系统(Relational Database Management System, RDBMS)中查询数据,或通过RDB...原创 2020-03-05 20:12:03 · 254 阅读 · 0 评论 -
数据库不能不了解的知识点(上)
由于我只是个“半仙”,所以此片文章除数据库基础外,主要概述mysql数据库,希望各位大佬不要喷我一、为什么要有数据库?因为Excel不能供一个大型系统使用,它的性能不够好。我们需要一个可以供多人同时访问、操纵、安全的数据存储系统。通俗来说,数据库是一个共享的硬盘,可以多人同时地进行访问、更改数据。在数据量很大(0~300G)的时候,数据库的性能将会非常地好。(想象一下一个几十G的Exce...原创 2020-03-04 21:27:18 · 352 阅读 · 0 评论 -
反爬虫必备基础知识点
1.为什么要反爬虫?因为大家都去爬,服务器会吃不消。严重时会造成 DDos攻击。有位网友的比喻十分形象:甲乙丙丁都在食堂打饭,食堂就一个窗口,甲饭没打完,后面的人就得等着。如果甲帮他们整个年级打饭,那么食堂阿姨就累瘫了(服务器崩溃)。乙丙丁不仅得等,而且等到了也没用。阿姨说我累死了,卖不动了,这饭今天你吃不了了。其实,说简单点,主要原因有以下两点:(1)、爬虫占总PV比例较高,这样浪费钱(...原创 2020-02-26 18:52:20 · 556 阅读 · 0 评论 -
Cookie和Session必备基础知识点
1.二者的定义及作用:(1).一个 cookie 可以认为是一个「变量」,形如name=value,存储在浏览器;一个 session 可以理解为一种数据结构,多数情况是「映射」(键值对),存储在服务器上。(2).cookie 的作用比较简单,即服务器给每个客户端(浏览器)打的标签,方便服务器辨认。(3).session 是一个数据结构,由网站的开发者设计,所以可以承载各种数据,只要客户端的...原创 2020-02-18 20:20:37 · 270 阅读 · 0 评论 -
爬虫必备知识点——get请求和post请求的区别
Get请求和Post请求的区别:1.get在浏览器回退时是无害的,post会再次提交请求;get产生的url地址可以被bookmark(加入标签),post不可以;get请求只能进行url编码,post可以进行多种编码;get请求参数会被完整保留在浏览器历史记录中,post不会(无痕浏览);对参数的数据类型,get只接受ASCII字符,post没有限制;Get请求在url中传递的参数...原创 2020-02-14 19:42:12 · 2131 阅读 · 0 评论