爬虫
文章平均质量分 79
jhin(杰)
这个作者很懒,什么都没留下…
展开
-
网络爬虫-高阶
网络爬虫框架 一.Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,利用Twisted异步网络框架来加快下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求。 二.Scrapy-Redis框架 反爬虫与反反爬虫的博弈 一.反爬机制 二. 反反爬机制 ...原创 2020-08-09 17:49:27 · 414 阅读 · 0 评论 -
网络爬虫-进阶
一.多线程爬虫 多线程爬虫:为了同时完成多项任务,通过提高资源利用率 ,提高系统的效率 threading模块:该模块是python中专门提供用来做多线程的模块 threading模块最常用的类Thread 传统方式 ex: import threading import time def coding(): for x in range(3): print('正在编写代码%s' %x) time.sleep(1) def drawing(): for i原创 2020-08-09 13:19:44 · 502 阅读 · 0 评论 -
网络爬虫-初阶
一.爬虫基础知识 网络爬虫就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动的抓取互联网信息的程序。(原则上,只要是浏览器能做的事,爬虫都能够做到,但是浏览器渲染之后的页面和爬虫请求的页面可能会不一样) 爬虫可以分为聚焦爬虫和通用爬虫。 通用爬虫:通用爬虫通常用与搜索引擎爬取系统 聚焦爬虫:面向特定需求的网络爬虫系统 str知识点: bytes:二进制 互联网上的数据都是以二进制进行传输的 str:unicode的呈现形式 str 与bytes相互转换: str使用encode(编码)原创 2020-08-06 18:03:07 · 686 阅读 · 0 评论