---- Python 爬虫
Python 爬虫总结
云 祁
Focus BigData,专注于大数据技术领域的知识分享。
展开
-
【Python 爬虫】(一)什么是爬虫
文章目录爬虫是什么爬虫的定义爬虫有什么用网址的构成网页的两种加载方法认识网页源码的构成查看网页请求理解网页请求过程通用的网络爬虫框架爬虫是什么本节博客的内容是介绍什么是爬虫?爬虫有什么用?以及爬虫是如何实现的?从这三点来全面剖析爬虫这一工具。爬虫的定义网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚...原创 2020-01-23 21:10:08 · 1174 阅读 · 0 评论 -
【Python 爬虫】(二)使用 Requests 爬取豆瓣短评
文章目录Requests库介绍Requests库安装Requests库的简单用法实战爬虫协议Requests库介绍Requests库官方的介绍有这么一句话:Requests,唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。想要深入学习Requests库,可以参考官方文档:http://cn.p...原创 2020-01-25 00:33:03 · 1454 阅读 · 0 评论 -
【Python爬虫】(三)使用 Xpath 解析豆瓣短评
文章目录解析神器XpathXpath的使用实战解析神器Xpath什么是XpathXPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作...原创 2020-02-05 22:11:47 · 1271 阅读 · 0 评论 -
【Python爬虫】(四)使用 Pandas 保存豆瓣短评数据
文章目录保存数据的方法使用open函数保存数据使用pandas保存数据实战保存数据的方法open函数保存pandas包保存(重点)csv模块保存numpy包保存使用open函数保存数据open函数用法使用with open()新建对象写入数据import requestsfrom lxml import etreeurl = 'https://book.dou...原创 2020-02-05 22:54:09 · 1246 阅读 · 0 评论