1、心得、体会:
第一天听了佩奇老师的拉钩,大概梳理了一下 爬虫的基本原理
#1、发起请求 使用http库向目标站点发起请求,即发送一个Request Request包含:请求头、请求体等 #2、获取响应内容 如果服务器能正常响应,则会得到一个Response Response包含:html,json,图片,视频等 #3、解析内容 解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等 解析json数据:json模块 解析二进制数据:以b的方式写入文件 #4、保存数据 数据库 文件
2、知识点总结
拉钩网主要是登录的时候 一定要注意在页面上存在auth_code 这都是老师经验传授,如果没有老师 自己找怎么办?
所以每次请求 都要按照顺序去查看,如果无法正常登录或者得到数据,那么根据请求顺序查看传送的数据里是否还存在哪些遗漏 这些才是做好爬虫的重要知识点
理解web知识 理解这段程序是如何提交的 都是做好爬虫的重要的基础工作
# 梳理好请求与响应
总结:
#1、总结爬虫流程: 爬取--->解析--->存储 #2、爬虫所需工具: 请求库:requests,selenium 解析库:正则,beautifulsoup,pyquery 存储库:文件,MySQL,Mongodb,Redis #3、爬虫常用框架: scrapy