Python网络爬虫——入门篇
RecycleBins
这个作者很懒,什么都没留下…
展开
-
Python网络爬虫入门笔记 十一、Re库的match对象
当时记笔记的时候在csdn上搜索了一下,觉得这个还可以https://blog.csdn.net/nicebluechai/article/details/103594004转载 2020-05-01 09:13:11 · 297 阅读 · 0 评论 -
Python网络爬虫入门笔记 十、正则表达式的概念与其基本使用
一、正则表达式的定义1、解释英文:regular expression 简称 regex 或 RE是用来简洁表达一组字符串的表达式。例如,若想表示一组字符串,通常只能采用一一列举的方式,很繁琐,但若采用正则表达式,就很简洁:再比如:再比如:2、正则表达式的特征通用的字符串表达框架 简洁表达一组字符串的表达式 针对字符串表达“简洁”和...原创 2020-05-01 09:03:10 · 404 阅读 · 0 评论 -
Python网络爬虫入门笔记 九、定向爬虫实例
一、爬虫功能描述输入:大学排名URL链接。输出:大学排名信息的屏幕输出(排名,大学名称,总分)。技术路线:requests-bs4。定向爬虫:仅对输入URL进行爬取,不扩展爬取。二、程序设计结构步骤1:从网络上获取大学排名网页内容步骤2:提取网页内容中信息到合适的数据结构步骤3:利用数据结构展示并输出结果上述步骤又对应以下步骤:步骤1:从网...原创 2020-05-01 09:01:12 · 329 阅读 · 0 评论 -
Python网络爬虫入门笔记 八、提取信息
信息的提取有多种方法。一、完整解析信息的标记形式,再提取关键信息顾名思义,首先解析信息的标记形式,再提取需要的信息。这种方法需要标记解析器,例如前面用到的BeautifulSoup库提供的标签树遍历。优点:信息解析准确缺点:提取信息繁琐,速度慢,也要求对信息的组织形式有一定的认识和了解。二、无视标记形式,直接搜索关键信息对信息的文本查找函数即可。优...原创 2020-05-01 09:00:02 · 636 阅读 · 0 评论 -
Python网络爬虫入门版笔记 七、XML、JSON、YAML三种信息的标记
一、什么是信息的标记当有一组信息时,为了使信息更利于阅读,方便理解,更加整洁,我们需要对信息进行标记。信息的标记其实也可以理解为是信息的分类过程。由此可以产生很多的好处:标记后的信息可形成信息组织结构、增加了信息维度。 标记后的信息可用于通信、存储、或展示。 标记后的结构与信息一样具有价值。 标记后的信息更利于程序的理解和运用。主要的信息标记的种类有三种形式,分别是:XML、...原创 2020-04-12 13:09:42 · 541 阅读 · 0 评论 -
Python网络爬虫入门版笔记 六、基于bs4库的HTML遍历方法
一、结构介绍当我们打开一个html文档时可以发现这是一个具有树形结构的文本。以前面的演示界面来看,其树形结构为:现在介绍三种遍历方式:下行遍历、上行遍历、平行遍历。二、标签树的下行遍历 属性 说明 .contents 子节点的列表,将<tag>所有儿子节点存入列表 ...原创 2020-04-12 13:05:09 · 468 阅读 · 0 评论 -
Python网络爬虫入门版笔记 五、BeautifulSoup库的介绍和基本使用
一、BeautifulSoup库简介该库是一个非常优秀的python第三方库,能够对HTML、XML等格式进行解析,并且提取相关信息。抽象的介绍它的作用就是,他能够把你给他的文档当做一锅汤,并熬制这锅汤。安装方法:在cmd界面用pip进行安装,这里安装的是BeautifulSoup4也叫bs4。二、BeautifulSoup的简单演示(practice_5)这...原创 2020-04-12 13:02:10 · 902 阅读 · 0 评论 -
Python网络爬虫入门版笔记 四、一些简单爬虫的基本演示与实战
实例一、爬取京东商品信息这里我们用到如下的爬取框架:即可爬取京东商品页面的网页文本,url中的链接即为京东的某个商品信息。实例二、爬取亚马逊商品信息都是爬取商品信息,为什么要将二者分开,因为亚马逊对爬虫进行了一定的限制,前面说到,网站限制爬虫有两种方式,最常见的是发布robots协议,可还有一种方式是根据HTTP请求的头部信息对爬虫进行筛选,这里亚马逊就采用了此种方...原创 2020-04-12 12:22:06 · 209 阅读 · 0 评论 -
Python网络爬虫入门版笔记 三、网络爬虫引发的问题和Robots协议
一、网络爬虫可能带来的危害众所周知,网络爬虫使用不规范可能回音发一系列的问题,总结为以下几点:网络骚扰(服务器性能)法律风险(内容层面)隐私泄露(个人隐私)二、对网络爬虫的限制1、来源审查:判断User-Agent进行限制具体方法:检查来访HTTP协议头的User-Agent域,只响应浏览器或友好爬虫发起的访问。2、发布公告:Robots协议具体方法:告知所有爬虫...原创 2020-04-07 08:34:46 · 495 阅读 · 0 评论 -
Python网络爬虫入门版笔记 二、Request库的主要方法
Request库的主要方法一、Request库的基本方法equests库中有一个最基本的方法: requests.request(method,url,**kwargs)其中method一共有七种,分别为: GET、HEAD、POST、PUT、PATCH、delete、OPTIONS前六个分别对应http协议的六个方法,最后一个OPTIONS用于获得一些服务器与客户端的...原创 2020-03-31 17:31:58 · 313 阅读 · 0 评论 -
Python网络爬虫入门版笔记 一、HTTP协议
在笔记开始之前首先说明:此笔记是我看北京理工大学嵩天老师慕课网络爬虫课程时做的笔记,具体链接如下:北京理工大学网络爬虫与信息提取课程嵩天老师讲解的也十分清楚,每节课程也十分精炼紧凑,很适合只掌握Python基础的小伙伴们入门网络爬虫,非常推荐各位一起参与学习。前面刚开始的笔记比较简陋,后面记得比较详细清晰,希望各位谅解。此外,笔记中存在一些课程内容的截图,如有侵权,请联系我,我一定及时更正。如...原创 2020-03-31 17:01:27 · 171 阅读 · 0 评论