python3爬虫
不吃鱼的猫~
深度学习菜鸟级工程师
展开
-
python3爬虫学习笔记之环境安装(一)
编写程序和运行代码之前,首先要做的就是将环境安装好。这里爬虫用的语言是python3,python安装就不介绍了。爬虫过程主要为:页面抓取、页面分析、数据存储。页面抓取主要用到的包为:requests和selenium。requests可用来抓取静态页面,当页面为动态页面时,就需要用selenium包加上浏览器才可抓取全面的页面。requests和selenium均可用pip安装(推荐),...原创 2019-09-11 14:37:58 · 333 阅读 · 0 评论 -
python3爬虫学习笔记之分析动态渲染网页爬取Selenium+Chrome(九)
JavaScript动态渲染并不是只有Ajax这一种,一些页面并不能通过前面章节的分析方法分析并爬取数据,所以就有了模拟浏览器运行的方式来实现爬取,这样在浏览器中看到是什么样,抓取的源码就是什么样的,无需考虑用了什么方式渲染页面。Python提供了很多模拟浏览器的库,这里我们介绍selenium的使用。Selenium是一个自动化测试工具,利用它就可以驱动浏览器执行特定的人任务,如点击、下拉等...原创 2019-09-17 14:30:24 · 467 阅读 · 0 评论 -
python3爬虫学习笔记之分析Ajax爬取今日头条街拍美图(八)
通过以上第6章节的学习,我们应该学习到了Ajax请求页面的分析、提取等,该章节将通过一个实例来深入学习Ajax数据的爬取:抓取今日头条的街拍美图,抓取之后,将每组图片分文件夹下载到本地并保存下来。1. 准备工作环境安装,requests,BeautifulSoup等。2. 抓取分析在抓取之前,首先要分析抓取的逻辑,打开今日头条,并搜索框输入‘街拍’:打开开发者工具,切...原创 2019-09-16 18:07:40 · 481 阅读 · 0 评论 -
python3爬虫学习笔记之Ajax数据爬取(七)
有了以上章节的学习,相信一般静态网页的爬取已经是轻而易举的事情了,但是,在实际爬虫中,经常会遇到动态网页,在我们用requests抓取页面时,得到的结果和在浏览器中看到的不一样。Ajax数据爬取Ajax即一种异步加载数据的方式,原始的页面不会包含数据,原始页面加载完毕后,会向服务器请求接口获取数据,然后数据被处理再显示在页面上。现在的趋势是,原始HTML不包含任何数据,数据都是通过Ajax...原创 2019-09-16 17:37:01 · 446 阅读 · 0 评论 -
python3爬虫学习笔记之解析库的使用----BeautifulSoup篇(六)
Beautiful Soup是python的另一个HTML或XML解析库,可以很方便的提取网页中的数据,利用它可以省去很多繁琐的提取工作,提高了解析效率。首先从一个实例出发:html = """<html><head><title>The Dormoues's story</title></head><body>...原创 2019-09-16 11:17:01 · 356 阅读 · 0 评论 -
python3爬虫学习笔记之解析库的使用----XPath篇(五)
在上面一章中,我们实现了一个最基本的爬虫,但是提取页面信息时使用的是正则表达式,这样的话,万一哪个地方写错了,就会导致整个匹配失败,所以很不方便。对于页面的节点来说,它可以定义id、class或其他属性。节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点,然后通过调用响应方法获取它的正文内容或属性。python中,解析库已经很多,比较强大的解析库有lxml、...原创 2019-09-16 10:28:33 · 447 阅读 · 0 评论 -
python3爬虫学习笔记之利用requests和re模块抓取猫眼电影排行(四)
本节利用第二章和第三章学习内容,抓取猫眼电影top100的电影名称、时间、评分、图片等信息,并存储到MySQL数据库中,数据库看另外一篇。站点URL地址为:http://maoyan.com/board/4.(全部代码见maoyan_films.py)第一步:打开地址可以看到如下信息,网页中显示有效信息有影片名称、主演、上映时间、评分等。将网页滚动到最下方,可以发现有分页列表...原创 2019-09-16 09:48:17 · 575 阅读 · 0 评论 -
python3爬虫学习笔记之正则表达式(三)
通过前面章节的学习,我们可通过请求库向服务器发出请求,然后服务器返回结果,其中包含网页源码,那么怎么将这些源码解析为我们需要的形式,一种方式就是通过正则表达式来匹配得到。正则表达式是处理字符串的强大工具,有了它,实现字符串的检索、替换、匹配验证都不在话下。常用匹配规则 模式 描述 \w 匹配字母、数字和下划线 ...原创 2019-09-12 14:12:13 · 196 阅读 · 0 评论 -
python3爬虫学习笔记之请求库的使用(二)
我们在使用python爬虫时,需要模拟发起网络请求,主要用到的库有requests库和python内置的urllib库,一般建议使用requests,它是对urllib的再次封装,它们使用的主要区别:requests可以直接构建常用的get和post请求并发起,urllib一般要先构建get或者post请求,然后再发起请求。get请求:使用get方式时,请求数据直接放在url中。pos...原创 2019-09-12 13:52:07 · 1038 阅读 · 0 评论 -
python3爬虫学习笔记之Selenium+Chrome爬取中国青年网新闻内容(十)
Selenium+Chrome爬取中国青年网新闻内容,内含代码解释文档;该文件,主要是利用Selenium+Chrome爬取中国青年网的新闻链接,插入数据库,并根据链接爬取链接下的新闻内容再插入到数据库中,数据库使用的是MySQL,在python3中使用pymysql操作该数据库。代码见:https://download.csdn.net/download/u012433049/1178293...原创 2019-09-19 14:16:16 · 520 阅读 · 0 评论