路飞学城—Python—爬虫实战密训班第一章

最新推荐文章于 2022-08-04 17:29:56 发布

weixin_30376509

最新推荐文章于 2022-08-04 17:29:56 发布

阅读量389

点赞数

文章标签：爬虫 json python

原文链接：http://www.cnblogs.com/touchlixiang/p/9270393.html

版权

1、心得、体会：

第一天听了佩奇老师的拉钩，大概梳理了一下爬虫的基本原理

#1、发起请求
使用http库向目标站点发起请求，即发送一个Request
Request包含：请求头、请求体等

#2、获取响应内容
如果服务器能正常响应，则会得到一个Response
Response包含：html，json，图片，视频等

#3、解析内容
解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等
解析json数据：json模块
解析二进制数据:以b的方式写入文件

#4、保存数据
数据库
文件


2、知识点总结
拉钩网主要是登录的时候 一定要注意在页面上存在auth_code 这都是老师经验传授，如果没有老师 自己找怎么办？
所以每次请求 都要按照顺序去查看，如果无法正常登录或者得到数据，那么根据请求顺序查看传送的数据里是否还存在哪些遗漏 这些才是做好爬虫的重要知识点
理解web知识 理解这段程序是如何提交的 都是做好爬虫的重要的基础工作

# 梳理好请求与响应 

总结：

#1、总结爬虫流程：
    爬取--->解析--->存储

#2、爬虫所需工具：
    请求库：requests,selenium
    解析库：正则，beautifulsoup，pyquery
    存储库：文件，MySQL，Mongodb，Redis

#3、爬虫常用框架：
    scrapy

转载于:https://www.cnblogs.com/touchlixiang/p/9270393.html