![](https://img-blog.csdnimg.cn/20190116171507368.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python3网络爬虫教程
本专栏介绍如何利用Python 3开发网络爬虫,首先介绍了网络爬虫的定义,接着会讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容,每个主题都会通过多个案例介绍不同场景下如何实现数据爬取。
Felix-微信(Felixzfb)
字节跳动数据分析工程师,个人微信AXiaShuBai。加微信,进Python小伙伴群。
展开
-
Python3网络爬虫教程20——分布式爬虫爬取10000个百度百科词条
上接:Python3网络爬虫教程19——分布式爬虫Scrapy实例(爬取多个页面)https://blog.csdn.net/u011318077/article/details/86692733利用分布式爬虫爬取1000、10000个百度百科词条分布式爬虫基本结构见下图项目结构图如下控制节点 - 控制器- URL管理器- 数据存储器爬虫节点- 爬虫程序- HTML下载器...原创 2019-03-04 22:04:18 · 1103 阅读 · 1 评论 -
Python3网络爬虫教程19——分布式爬虫Scrapy实例(爬取多个页面)
上接:Python3网络爬虫教程18——分布式爬虫Scrapy实例(爬取一个页面)https://blog.csdn.net/u011318077/article/details/86692598先补充几个常用命令;7. Scrapy项目常用命令先打开CMD命令,CD切换到要创建的项目的文件夹下scrapy startproject(创建项目)创建项目之后切换到项目文件夹下...原创 2019-01-29 17:13:47 · 2136 阅读 · 0 评论 -
Python3网络爬虫教程18——分布式爬虫Scrapy实例(爬取一个页面)
上接:Python3网络爬虫教程17——分布式爬虫Scrapy基础https://blog.csdn.net/u011318077/article/details/866924514. 简单实例(爬取一条名言)创建一个简单的爬虫实例第一步:创建一个scrapy项目创建命令:scrapy startproject mingyan2(mingyan2是我取的项目文件夹名称)打开C...原创 2019-01-29 17:07:51 · 1866 阅读 · 1 评论 -
Python3网络爬虫教程17——分布式爬虫Scrapy基础
上接:Python3网络爬虫教程16——动态HTML(Selenium + Firefox/Chrome的使用)https://blog.csdn.net/u011318077/article/details/866923541. Scrapy介绍爬虫框架scrapy 最常用pyspider 一个小框架crawleyscrapy框架介绍官网:http://www...原创 2019-01-29 17:01:15 · 826 阅读 · 1 评论 -
Python3网络爬虫教程15——BeautifulSoup4中的编码,格式化,解析器的区别
上接:Python3网络爬虫教程14——BeautifulSoup4之搜索文档树https://blog.csdn.net/u011318077/article/details/866334335.5. 格式化输出prettify() 方法将Beautiful Soup的文档树格式化后以Unicode编码输出,每个XML/HTML标签都独占一行如下示例markup = ‘...原创 2019-01-24 21:21:56 · 1049 阅读 · 0 评论 -
Python3网络爬虫教程14——BeautifulSoup4之搜索文档树
上接:Python3网络爬虫教程13——BeautifulSoup4基本使用及遍历文档树https://blog.csdn.net/u011318077/article/details/866333925.3. 搜索文档树5.3.1. 过滤器find_all()find_all() 方法将返回文档中符合条件的所有tag过滤器过滤器可以被用在tag的name中,节点的...原创 2019-01-24 21:19:46 · 324 阅读 · 0 评论 -
Python3网络爬虫教程13——BeautifulSoup4基本使用及遍历文档树
上接:Python3网络爬虫教程12——页面解析及正则表达式的使用https://blog.csdn.net/u011318077/article/details/866333305. BeautifulSoup4使用BeautifulSoup4官方文档地址:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#id7几个常用提取信息...原创 2019-01-24 21:16:07 · 928 阅读 · 0 评论 -
Python3网络爬虫教程12——页面解析及正则表达式的使用
上接:Python3网络爬虫教程11——Requests包(HTTP for Humans)https://blog.csdn.net/u011318077/article/details/866332611. 页面解析和数据提取简介结构数据:先有的结构,再谈数据JSON文件JSON Path转换成Python类型进行操作(json类)XML文件转化为Python类...原创 2019-01-24 21:10:43 · 260 阅读 · 0 评论 -
Python3网络爬虫教程11——Requests包(HTTP for Humans)
上接:Python3网络爬虫教程10——ajax异步请求(爬取豆瓣电影数据 )https://blog.csdn.net/u011318077/article/details/866331967. RequestsHTTP for Humans-献给人类,更好用,更简洁继承了urllib的所有特性底层使用的是urllib3开源地址:https://github.com/reques...原创 2019-01-24 21:05:55 · 416 阅读 · 0 评论 -
Python3网络爬虫教程10——ajax异步请求(爬取豆瓣电影数据 )
上接:Python3网络爬虫教程9——有道在线翻译项目(破解JS加密过程)https://blog.csdn.net/u011318077/article/details/865921607. ajax异步请求异步请求一定会有url,请求方法,可能有数据一般使用json格式豆瓣排行榜-剧情:https://movie.douban.com/typerank?type_...原创 2019-01-24 21:01:15 · 989 阅读 · 0 评论 -
Python3网络爬虫教程8——有道在线翻译项目(JS加密)
上接:Python3网络爬虫教程7——SSL数字证书https://blog.csdn.net/u011318077/article/details/865381166. js加密(有道在线翻译项目)有的反爬虫策略采用js对需要传输的数据进行加密处理(通常是取md5值)经过加密,传输的就是密文,但是加密函数或者过程一定是在浏览器完成,也就是一定会把代码(js代码)暴露给使用者通过阅...原创 2019-01-18 12:59:38 · 504 阅读 · 0 评论 -
Python3网络爬虫教程7——SSL数字证书
上接:Python3网络爬虫教程6——cookie & session(cookie的属性,保存及模块的使用)https://blog.csdn.net/u011318077/article/details/865380975. SSL数字证书SSL就是指遵守SSL安全套阶层协议的服务器数字证书(SecureSocketLayer)理论上网址带有https:都是安全的,带有SS...原创 2019-01-18 12:56:37 · 1473 阅读 · 0 评论 -
Python3网络爬虫教程6——cookie & session(cookie的属性,保存及模块的使用)
上接:Python3网络爬虫教程5——ProxyHandler处理(代理服务器和代理IP)https://blog.csdn.net/u011318077/article/details/865380424. cookie & session产生的原因:由于HTTP协议没有记忆性,人们为了弥补这个缺陷,所采用的一个补充协议cookie是发放给用户(即http浏览器)的一段...原创 2019-01-18 12:54:15 · 1221 阅读 · 0 评论 -
Python3网络爬虫教程5——ProxyHandler处理(代理服务器和代理IP)
上接:Python3网络爬虫教程4——UserAgent的使用(用户伪装)(附常用的UserAgent值清单[https://blog.csdn.net/u011318077/article/details/86508095]3. ProxyHandler处理(代理服务器)使用代理IP,是爬虫的常用手段服务器有反爬虫手段,使用代理就是反反爬虫获取代理服务器的地址:www.xici...原创 2019-01-18 12:45:44 · 1095 阅读 · 0 评论 -
Python3网络爬虫教程4——UserAgent的使用(用户伪装)(附常用的UserAgent值清单)
UserAgent: 用户代理,简称UA,属于headers的一部分,服务器通过UA来判断访问者的身份常见的UA值,使用的时候可以直接复制粘贴,也可以用浏览器访问的时候抓包UserAgent使用方法,参考以下实例:**常见UserAgent值如下****电脑端**chrome Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/5...原创 2019-01-16 15:11:36 · 1344 阅读 · 0 评论 -
Python3网络爬虫教程3——urllib.error的使用
上接:Python3网络爬虫教程2——urlopen的返回对象https://blog.csdn.net/u011318077/article/details/865106822.5. urllib.errorURLError产生的原因没网服务器连接失败是OSError的子类看案例43_7HTTPError是URLError的一个子类看案例43_8两者区别:H...原创 2019-01-16 16:59:20 · 310 阅读 · 0 评论 -
Python3网络爬虫教程2——urlopen的返回对象
上接:Python3网络爬虫教程1——初始爬虫(爬虫是干嘛的?)https://blog.csdn.net/u011318077/article/details/865088722.3. urlopen的返回对象rsp = request.urlopen(url)有时候不一定能获得对象,断网了,服务器故障等等geturl: 返回请求对象的URLinfo: 返回反馈对象的meta信息...原创 2019-01-16 16:52:01 · 1865 阅读 · 1 评论 -
Python3网络爬虫教程1——初识爬虫(爬虫是干嘛的?)
1. 网络爬虫爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。两大特征按照作者的要求下载数据和内容能自动在网络上流窜三大步骤下载网页提取正确的信息根据一定的规则自动跳到另外的网页执行以上两步内容爬...原创 2019-01-16 15:42:03 · 656 阅读 · 0 评论 -
requests库中response.text 和response.content的区别
1.response.text- 类型:str- 解码类型: 根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码- 如何修改编码方式:response.encoding=”gbk”2. response.content- 类型:bytes- 解码类型: 没有指定- 如何修改编码方式:response.content.deocde(“utf-8”)3. 区别使用re...原创 2019-09-05 19:33:01 · 2634 阅读 · 0 评论