![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
阿Q咚咚咚
生活不易,唯有努力
展开
-
网络爬虫--27.csv文件的读取和写入
文章目录一. csv文件二. 读取csv文件的两种方式三. 写入csv文件的两种方式一. csv文件二. 读取csv文件的两种方式import csvdef read_csv_demo1(): with open('classroom1.csv','r',encoding='utf-8',newline='') as fp: # reader是一个迭代器 reader = csv.reader(fp) next(reader)原创 2020-05-25 23:46:54 · 253 阅读 · 0 评论 -
网络爬虫--26.Scrapy中下载器中间件Downloader Middlewares的使用
文章目录一. Downloader Middlewares二. 设置随机请求头三. ip代理池中间件一. Downloader Middlewares二. 设置随机请求头三. ip代理池中间件原创 2020-05-25 20:06:20 · 848 阅读 · 1 评论 -
网络爬虫--25.【selenium实战】实现拉勾网爬虫之--selenium获取数据
文章目录一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-24 20:22:15 · 345 阅读 · 0 评论 -
网络爬虫--24.【selenium实战】实现拉勾网爬虫之--分析接口获取数据
文章目录一.二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一.二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-24 14:20:45 · 7438 阅读 · 0 评论 -
网络爬虫--23.动态网页数据抓取
文章目录一.二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一.二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-23 23:02:14 · 214 阅读 · 0 评论 -
网络爬虫--22.【CrawlSpider实战】实现微信小程序社区爬虫
文章目录一. CrawlSpider二. CrawlSpider案例1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. CrawlSpider现实情况下,我们需要对满足某个特定条件的url进行爬取,这时候就可以通过CrawlSpider完成。CrawlSpider继承自Spider,只不过在之前的基础上增加了新的功能,可以定义爬取的url规则,Scrapy碰到满足条件的url都进行爬取,而不用手动的yield Request。二. CrawlSpider案例1原创 2020-05-23 10:09:41 · 591 阅读 · 0 评论 -
网络爬虫--21.Scrapy知识点总结
文章目录一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-17 09:51:37 · 197 阅读 · 0 评论 -
网络爬虫--20.【Scrapy-Redis实战】分布式爬虫获取房天下--代码实现
文章目录一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-17 09:50:31 · 341 阅读 · 0 评论 -
网络爬虫--19.【Scrapy-Redis实战】分布式爬虫爬取房天下--环境准备
文章目录0. 思路一. 虚拟机Ubuntu0中安装Redis二. 虚拟机Ubuntu0中安装Redis三. Windows服务器上安装Redis四. 安装cmder五. 安装RedisDesktopManager六. 修改Windows中的配置文件redis.windows.conf七. Ubuntu连接Windows上 的Redis服务器0. 思路准备三台服务器,分别是Windows、Ubuntu1、Ubuntu2;其中Windows服务器作为分布式爬虫的Redis服务器;Ubuntu1和Ubun原创 2020-05-16 23:44:18 · 346 阅读 · 0 评论 -
网络爬虫--18.python中的GIL(全局解释器锁)、多线程、多进程、并发、并行
参考文献:python的GIL、多线程、多进程并发和并行的区别?GIL(全局解释器锁)一看就懂的解释!多谢作者分享!原创 2020-05-05 20:06:17 · 208 阅读 · 0 评论 -
网络爬虫--17.【BeautifuSoup4实战】爬取腾讯社招
文章目录一.要求二.代码示例一.要求以腾讯社招页面来做演示:http://hr.tencent.com/position.php?&start=10#a使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。二.代码示例from bs4 import BeautifulSoupimport u...原创 2020-05-05 15:00:57 · 228 阅读 · 0 评论 -
网络爬虫--16.BeautifulSoup4
文章目录一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. 标题二. 标题三. 标题四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题...原创 2020-05-05 14:58:08 · 152 阅读 · 0 评论 -
网络爬虫--15.【糗事百科实战】多线程实现
文章目录一. Queue(队列对象)二. 多线程示意图三. 代码示例一. Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,...原创 2020-05-04 20:35:30 · 184 阅读 · 0 评论 -
网络爬虫--14.【糗事百科实战】
文章目录一. 要求二. 参考代码一. 要求爬取糗事百科段子,假设页面的URL是 http://www.qiushibaike.com/8hr/page/1使用requests获取页面信息,用XPath / re 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件内二. 参考代码#coding=utf-8import ...原创 2020-05-02 22:59:00 · 153 阅读 · 0 评论 -
网络爬虫--13.数据提取之JSON与JsonPATH
文章目录一. 前言二. JSON三. json.loads()四. json.dumps()五. json.dump()六. json.load()七. JsonPath八. JsonPath与XPath语法对比九. 案例分析一. 前言JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生...原创 2020-05-02 21:29:00 · 350 阅读 · 0 评论 -
网络爬虫--12.【XPath实战】获取百度贴吧中的图片
用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。#coding=utf-8import requestsfrom lxml import etreeimport jsonclass Tieba: def __init__(self,tieba_name): self.tieba_name = t...原创 2020-05-02 20:49:31 · 326 阅读 · 0 评论 -
网络爬虫--11.XPath和lxml
文章目录一. XML1. XML 和 HTML 的区别2. XML文档示例3. HTML DOM 模型示例4. XML的节点关系二. 什么是XPath?1. 选取节点2. 谓语(Predicates)3. 小标题4. 小标题5. 小标题三. lxml库四. 标题五. 标题1. 小标题2. 小标题3. 小标题1). 小标题2). 小标题3). 小标题一. XML有人说,我正则用的不好,处理HTM...原创 2020-05-01 23:32:24 · 231 阅读 · 0 评论 -
网络爬虫--10.使用正则表达式的爬虫
文章目录一. 前言二. 第一步:获取数据三. 第二步:筛选数据四. 第三步:保存数据五. 第四步:实现循环抓取一. 前言现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行翻页...原创 2020-04-28 20:59:17 · 280 阅读 · 0 评论 -
网络爬虫--9.正则表达式
文章目录一. 正则表达式1.为什么要学正则表达式2.什么是正则表达式3.正则表达式匹配规则二. Python 的 re 模块1.re 模块的一般使用步骤2.compile 函数3.match 方法4.search 方法5.findall 方法6.finditer 方法7.split 方法8.匹配中文9.贪婪模式与非贪婪模式一. 正则表达式1.为什么要学正则表达式实际上爬虫一共就四个主要步骤:...原创 2020-04-28 16:00:32 · 197 阅读 · 0 评论 -
网络爬虫--8.编码趣闻
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物。他们看到8个开关状态是好的,于是他们把这称为"字节"。再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出很多状态,状态开始变来变去。他们看到这样是好的,于是它们就这机器称为"计算机"。开始计算机只在美国用。八位的字节一共可以组合出256(2的8次方)种不同的状态。他们把其中...原创 2020-04-27 23:25:00 · 161 阅读 · 0 评论 -
网络爬虫--7.Handler处理器 和 自定义Opener
文章目录一. 引言二. 简单的自定义opener()三. ProxyHandler处理器(代理设置)四. Cookie1.Cookie原理2.Cookie应用五. cookiejar库 和 HTTPCookieProcessor处理器1.案例一:获取Cookie,并保存到CookieJar()对象中2.案例二:利用cookiejar和post登录人人网一. 引言opener是 urllib.r...原创 2020-04-27 17:39:53 · 181 阅读 · 0 评论 -
网络爬虫--6.urllib库的基本使用(2)
文章目录一. urllib.parse.urlencode()和urllib.parse.unquote()二. Get方式三. 批量爬取百度贴吧数据四.POST方式五.关于CA六.处理HTTPS请求 SSL证书验证一. urllib.parse.urlencode()和urllib.parse.unquote()编码工作使用urllib.parse的urlencode()函数,帮我们将key...原创 2020-04-27 13:28:17 · 1072 阅读 · 0 评论 -
网络爬虫--5.urllib库的基本使用(1)
文章目录一. 前言二. urlopen三. Request四. User-Agent五. 添加更多的Header信息1. 添加一个特定的header2. 随机添加/修改User-Agent一. 前言所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。二. urlopen我们先来段代码:# 导入u...原创 2020-04-25 23:13:50 · 175 阅读 · 0 评论 -
网络爬虫--4.requests的简单实用
文章目录0.标题1.标题2.标题3.标题4.标题0.标题1.标题2.标题3.标题4.标题1)2)3)原创 2020-04-25 21:56:21 · 1263 阅读 · 0 评论 -
网络爬虫--3.str和bytes的区别
文章目录一.bytes二.str和bytes相互转换三.bytearray一.bytesbytes对象只负责以二进制字节序列的形式记录所需记录的对象,至于该对象到底表示什么(比如到底是什么字符)则由相应的编码格式解码所决定。bytes是Python 3中特有的,Python 2 里不区分bytes和str。Python2 中>>> type(b'xxxxx')<...原创 2020-04-25 17:31:37 · 282 阅读 · 0 评论 -
网络爬虫--2.HTTP和HTTPS
文章目录一.简介二.HTTP的请求与响应三.客户端HTTP请求1.格式2.请求方法四.常用的请求报头1.Host (主机和端口号)2.Connection (链接类型)3.Upgrade-Insecure-Requests (升级为HTTPS请求)4. User-Agent (浏览器名称)5. Accept (传输文件类型)6.Referer (页面跳转处)7.Accept-Encoding(文件...原创 2020-04-25 17:14:08 · 1282 阅读 · 0 评论 -
网络爬虫--1.通用爬虫和聚焦爬虫
根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种.通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。...原创 2020-04-25 13:51:34 · 2314 阅读 · 0 评论