二.爬虫是什么
爬虫本质也是一种程序,它会根据指定的条件去互联网上收集数据。
爬虫互获取数据的方式就是通过代码实现浏览器访问服务器的过程,所以我们有必要去理解B/S架构下的数据访问流程。
三.爬虫实现思路
1,确定数据资源地址
2,对该数据地址发起访问请求
3,拿到数据
4,对数据根据需求进行处理
四.代码实战
要求:爬取电影top250的电影名字,评分,引言,详情页并保存
#导入类库
import requests #网络请求库
import cvs #文件格式库
from lxml import etree #数据转换
1,确定数据地址
注意:在获取这种分页页面时候,不要只看第一页的地址。点击第二页拿到完整地址
#导入类库
import requests #网络请求库
import csv #文件格式库
from lxml import etree #数据转换
#确定数据地址 将起始页用占位符,方便后面循环爬取各个页面
2,对数据地址发起访问请求并拿到数据
定义一个函数,功能就是用来获取网页源码
#接收服务器返回过来的数据
response = requests.get(url,headers=headers)
# 防止出现乱码
response.encoding = ‘utf-8’
#返回网页源码文本
return response.text
3,对数据进行处理
定义一个函数,用于数据解析处理
#从拿到的源码中解析出每部电影的数据
def getEveryMovie(source):
#将文本解析成html形式
html = etree.HTML(source)
#获取标题
title = eachMoive.xpath(‘div[@class=“hd”]/a/span[@class=“title”]/text()’) # 标题
# 获取电影的引言
quote = eachMoive.xpath(‘div[@class=“bd”]/p[@class=“quote”]/span/text()’)
#将字典加入列表
movieList.append(movieDict)
#返回列表
return movieList
循环爬取每一页并写入本地csv文件
保存数据
def writeData(movieList)
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!