(4)浏览器拿到资源之后对页面进行加载、解析、渲染,最后呈现给用户
5.谷歌浏览器之 HTTP 请求分析
打开 Chrome 开发工具(这里我们以打开百度网址为例),如下图:
- Elements(元素面板):使用“元素”面板可以通过自由操纵 DOM 和 CSS 来重演您网站的布局和设计。
- Console(控制台面板):在开发期间,可以使用控制台面板记录诊断信息,或者使用它作为 shell,在页面上与 JavaScript交互。
- Sources(源代码面板):在源代码面板中设置断点来调试 JavaScript ,或者通过
Workspaces(工作区)连接本地文件来使用开发者工具的实时编辑器。 - Network(网络面板):从发起网页页面请求 Request后得到的各个请求资源信息(包括状态、资源类型、大小、所用时间等),并可以根据这个进行网络性能优化。
四、豆瓣短评的数据爬取
Pycharm IDE 的安装:
接下来我们首先需要安装 Python 中常用开发软件 Pycharm IDE,安装只需要默认选择即可。
(1)三方包的安装。
第一种安装库模块的方式为:打开 Pycharm IDE,选择 file-Settings,如下图所示:
这时我们选择右方的"+"符号,如下图所示:
由于接下来需要进行爬取豆瓣短评的数据,所以我们首先需要安装一些三方包和模块。安装 openpyxl、lxml、requests、pandas 等,安装这些库模块的时候,我们只需要在搜索框中搜索对应的库模块就可以,然后选择左下方的 Install Package 即可,等待安装完毕。
第二种安装库模块的方式为:打开 cmd 命令行,输入 pip install requests 命令,出现 Successfully installed,则表明该模块安装成功。
五、代码编写
爬取豆瓣短评需要用的知识点如下:
- 使用 Requests 爬取豆瓣短评;
- 使用 Xpath 解析豆瓣短评;
- 使用 pandas 保存豆瓣短评数据。
(1)Requests 库详解
Requests 是唯一的一个非转基因的 Python HTTP 库,人类可以安全享用,Requests 库是 Python 爬虫中的利器,使得我们爬虫更加方便,快速,它可以节约我们大量的工作,完全满足 HTTP 测试需求,所以我们安装这个库以爬取网页中的数据。
使用 Requests 抓取网页数据的一般步骤如下:
- 导入 Requests 库;
- 输入 URL;
- 使用 Get方法;
- 打印返回文本;
- 抛出异常。
(2)Xpath 解析
XPath 即为 XML 路径语言(XML Path Language),它是一种用来确定 XML 文档中某部分位置的语言,在开发中经常被开发者用来当作小型查询语言,XPath 用于在 XML 文档中通过元素和属性进行导航。
使用 Xpath 解析网页数据的一般步骤为:
- 从 lxml 导入etree。
- 解析数据,返回 XML 结构。
- 使用 .xpath() 寻找和定位数据。
获取 Xpath 的方法直接从浏览器中复制即可:首先在浏览器上定位到需要爬取的数据,右键,点击“检查”,在“Elements”下找到定位到所需数据,右键 —> Copy —> Copy Xpath,即可完成 Xpath 的复制(事例如下图)。
(3)pandas 讲解
pandas 是数据分析工作变得更加简单的高级数据结构和操作工具,主要使用 pandas 保存数据。
导入 pandas 代码如下:
pandas 保存数据到 Excel,其步骤为:导入相关的库;将爬取到的数据储存为 DataFrame 对象;从 Excel 文件中读取数据并保存。
事例代码如下:
通过上述对三方包的安装、Requests、Xpath 解析、pandas 保存数据介绍,接下来我们就正式开始对编写豆瓣短评数据代码编写。
单页豆瓣恶意图书评论数据的爬取代码,如下:
单页数据的爬取 Pycharm IDE 图片截图,如下:
爬取结束之后,已经自动保存为 Excel 表格,分别是 comment.xlsx、comment2.xlsx。
单页抓取效果如下图:
多页抓取效果如下图:
以上关于 Python 爬虫内容就讲到这里,如您有其他观点可在评论区留言交流,有好文也可给小宅投稿分享哦!
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
朋友们如果需要这份完整的资料可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
一、Python学习大纲
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、入门学习视频
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
做了那么多年开发,自学了很多门编程语言,我很明白学习资源对于学一门新语言的重要性,这些年也收藏了不少的Python干货,对我来说这些东西确实已经用不到了,但对于准备自学Python的人来说,或许它就是一个宝藏,可以给你省去很多的时间和精力。
别在网上瞎学了,我最近也做了一些资源的更新,只要你是我的粉丝,这期福利你都可拿走。
我先来介绍一下这些东西怎么用,文末抱走。
(1)Python所有方向的学习路线(新版)
这是我花了几天的时间去把Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
最近我才对这些路线做了一下新的更新,知识体系更全面了。
(2)Python学习视频
包含了Python入门、爬虫、数据分析和web开发的学习视频,总共100多个,虽然没有那么全面,但是对于入门来说是没问题的,学完这些之后,你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。
(3)100多个练手项目
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了,只是里面的项目比较多,水平也是参差不齐,大家可以挑自己能做的项目去练练。
(4)200多本电子书
这些年我也收藏了很多电子书,大概200多本,有时候带实体书不方便的话,我就会去打开电子书看看,书籍可不一定比视频教程差,尤其是权威的技术书籍。
基本上主流的和经典的都有,这里我就不放图了,版权问题,个人看看是没有问题的。
(5)Python知识点汇总
知识点汇总有点像学习路线,但与学习路线不同的点就在于,知识点汇总更为细致,里面包含了对具体知识点的简单说明,而我们的学习路线则更为抽象和简单,只是为了方便大家只是某个领域你应该学习哪些技术栈。
(6)其他资料
还有其他的一些东西,比如说我自己出的Python入门图文类教程,没有电脑的时候用手机也可以学习知识,学会了理论之后再去敲代码实践验证,还有Python中文版的库资料、MySQL和HTML标签大全等等,这些都是可以送给粉丝们的东西。
这些都不是什么非常值钱的东西,但对于没有资源或者资源不是很好的学习者来说确实很不错,你要是用得到的话都可以直接抱走,关注过我的人都知道,这些都是可以拿到的。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!