这篇文章主要介绍了一个入门级python爬虫教程详解,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下。
−
目录
前言
本文目的:根据本人的习惯与理解,用最简洁的表述,介绍爬虫的定义、组成部分、爬取流程,并讲解示例代码。
基础
爬虫的定义:定向抓取互联网内容(大部分为网页)、并进行自动化数据处理的程序。主要用于对松散的海量信息进行收集和结构化处理,为数据分析和挖掘提供原材料。
今日t条就是一只巨大的“爬虫”。
爬虫由URL库、采集器、解析器组成。
流程
如果待爬取的url库不为空,采集器会自动爬取相关内容,并将结果给到解析器,解析器提取目标内容后进行写入文件或入库等操作。
代码
第一步:写一个采集器
如下是一个比较简单的采集器函数。需要用到requests库。
首先,构造一个http的header,里面有浏览器和操作系统等信息。如果没有这个伪造的header,可能会被目标网站的WAF等防护设备识别为机器代码并干掉。
然后,用requests库的get方法获取url内容。如果http响应代码是200 ok,说明页面访问正常,将该函数返回值设置为文本形式的html代码内容。
如果响应代码不是200 ok,说明页面不能正常访问,将函数返回值设置为特殊字符串或代码。
123456789 | import requests def get_page(url):`` `` headers ``= {``'User-Agent'`` : ``'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'``}`` `` response ``= requests.get(url, headers``= headers)`` ``if response.status_code ``=``= 200``:`` ``return response.text`` ``else``:`` ``return 'GET HTML ERROR !' |
---|
第二步:解析器
解析器的作用是对采集器返回的html代码进行过滤筛选,提取需要的内容。
作为一个14年忠实用户,当然要用豆瓣举个栗子 _
我们计划爬取豆瓣排名TOP250电影的8个参数:排名、电影url链接、电影名称、导演、上映年份、国家、影片类型、评分。整理成字典并写入文本文件。
待爬取的页面如下,每个页面包括25部电影,共计10个页面。
在这里,必须要表扬豆瓣的前端工程师们,html标签排版非常工整具有层次,非常便于信息提取。
下面是“肖申克的救赎”所对应的html代码:(需要提取的8个参数用红线标注)
根据上面的html编写解析器函数,提取8个字段。该函数返回值是一个可迭代的序列。
我个人喜欢用re(正则表达式)提取内容。8个(.*?)分别对应需要提取的字段。
12345678910111213141516 | import re def parse_page(html):`` `` pattern ``= re.``compile``(``'<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)`` `` items ``= re.findall(pattern , html)`` ``for item ``in items:`` ``yield {`` ``'rank'``: item[``0``],`` ``'href'``: item[``1``],`` ``'name'``: item[``2``],`` ``'director'``: item[``3``].strip()[``4``:],`` ``'year'``: item[``4``].strip(),`` ``'country'``: item[``5``].strip(),`` ``'style'``: item[``6``].strip(),`` ``'score'``: item[``7``].strip()`` ``} |
---|
提取后的内容如下:
整理成完整的代码:(暂不考虑容错)
12345678910111213141516171819202122232425262728293031323334353637383940414243 | import requests``import re``import json def get_page(url):`` ``#采集器函数`` `` headers ``= {``'User-Agent'`` : ``'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'``}`` `` response ``= requests.get(url, headers``= headers)`` ``if response.status_code ``=``= 200``:`` ``return response.text`` ``else``:`` ``return 'GET HTML ERROR ! ' def parse_page(html):`` ``#解析器函数`` `` pattern ``= re.``compile``(``'<em class="">(.*?)</em>.*?<a href="(.*?)" rel="external nofollow" rel="external nofollow" >.*?<span class="title">(.*?)</span>.*?<div class="bd">.*?<p class="">(.*?) .*?<br>(.*?) / (.*?) / (.*?)</p>.*?<span class="rating_num".*?"v:average">(.*?)</span>' , re.S)`` `` items ``= re.findall(pattern , html)`` ``for item ``in items:`` ``yield {`` ``'rank'``: item[``0``],`` ``'href'``: item[``1``],`` ``'name'``: item[``2``],`` ``'director'``: item[``3``].strip()[``4``:],`` ``'year'``: item[``4``].strip(),`` ``'country'``: item[``5``].strip(),`` ``'style'``: item[``6``].strip(),`` ``'score'``: item[``7``].strip()`` ``} def write_to_file(content):`` ``#写入文件函数`` `` with ``open``(``'result.txt' , ``'a' , encoding ``= 'utf-8'`` ) as ``file``:`` ``file`` .write(json.dumps(content , ensure_ascii ``= False`` ) ``+ '\n'``) if __name__``=``= "__main__"``:`` ``# 主程序`` ``for i ``in range``(``10``):`` ``url``= 'https://movie.douban.com/top250?start='``+ str``(i``*``25``)``+ '&filter'`` ``for res ``in parse_page(get_page(url)):`` ``write_to_file(res) |
---|
非常简洁,非常符合python简单、高效的特点。
说明:
需要掌握待爬取url的规律,才能利用for循环等操作自动化处理。
前25部影片的url是https://movie.douban.com/top250?start=0&filter,第26-50部影片url是https://movie.douban.com/top250?start=25&filter。规律就在start参数,将start依次设置为0、25、50、75。。。225,就能获取所有页面的链接。parse_page函数的返回值是一个可迭代序列,可以理解为字典的集合。运行完成后,会在程序同目录生成result.txt文件。内容如下:
到此这篇关于一个入门级python爬虫教程详解的文章就介绍到这了。
Python 的迅速崛起对整个行业来说都是极其有利的 ,但“人红是非多
”,导致它平添了许许多多的批评,不过依旧挡不住它火爆的发展势头。
如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份Python全套学习资料,都是我自己学习时整理的,希望可以帮到你,一起加油!
😝有需要的小伙伴,可以点击下方链接免费领取或者V扫描下方二维码免费领取🆓
点击这里
1️⃣零基础入门
① 学习路线
对于从来没有接触过Python的同学,我们帮你准备了详细的学习成长路线图。可以说是最科学最系统的学习路线,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
② 路线对应学习视频
还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~
③练习题
每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
2️⃣国内外Python书籍、文档
① 文档和书籍资料
3️⃣Python工具包+项目源码合集
①Python工具包
学习Python常用的开发软件都在这里了!每个都有详细的安装教程,保证你可以安装成功哦!
②Python实战案例
光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。100+实战案例源码等你来拿!
③Python小游戏源码
如果觉得上面的实战案例有点枯燥,可以试试自己用Python编写小游戏,让你的学习过程中增添一点趣味!
4️⃣Python面试题
我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
5️⃣Python兼职渠道
而且学会Python以后,还可以在各大兼职平台接单赚钱,各种兼职渠道+兼职注意事项+如何和客户沟通,我都整理成文档了。
上述所有资料 ⚡️ ,朋友们如果有需要的,可以扫描下方👇👇👇二维码免费领取🆓