python爬虫

rainbow_lucky0106

于 2019-01-21 20:42:14 发布

阅读量112

点赞数

分类专栏：爬虫

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、什么是爬虫

沿着网络抓取自己数据：向网站发起请求，获取资源后分析并提取有用数据。通过模拟浏览器请求站点的行为，把站点返回的HTML代码、JSON数据、二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。

二、流程

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

1. 发起请求

使用http库项目标站点发起请求（Request）

通过url全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文件、一段视频都可以用url唯一确定

网页的加载过程：加载一个网页，通常都是先加载document文档，

在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

Request缺陷：不能执行JS和CSS代码

请求头：

Referrer：访问源

User-agent：合法用户

cookies：保存登录信息

请求体：

get：请求体没有内容

post：请求体是format data

2. 获取响应内容（Response）

响应状态码：

200：成功

301：跳转

404：文件不存在

403：无权限访问

502：服务器错误

response header

Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来

Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另一个页面

3. 解析内容

解析html数据：regx，第三方解析库（Beautifulsoup:bs4，pyquery等）；

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

4. 保存数据

数据库、文件

三、selenium

工具：

请求库：requests，selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）

解析库：正则，beautifulsoup，pyquery

存储库：文件，MySQL，Mongodb，Redis

三、Selenium

参考：https://www.cnblogs.com/sss4/p/7809821.html

rainbow_lucky0106

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫

一、什么是爬虫沿着网络抓取自己数据：向网站发起请求，获取资源后分析并提取有用数据。通过模拟浏览器请求站点的行为，把站点返回的HTML代码、JSON数据、二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用。二、流程模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中1. 发起请求使用http库项目标站点发起请求（Reques...
复制链接

扫一扫

专栏目录

rainbow_lucky0106 CSDN认证博客专家 CSDN认证企业博客

码龄10年

255: 原创

17万+: 周排名

8890: 总排名

26万+: 访问

: 等级

3527: 积分

254: 粉丝

124: 获赞

17: 评论

849: 收藏

私信

关注

热门文章

分类专栏

C++\QT 103篇
MAC 6篇
VS 4篇
Windows API / MFC 11篇
Trick 7篇
Tool 25篇
虚拟机 2篇
数据库 4篇
历久弥新 5篇
ELKB 5篇
Web 8篇
计算机底层 6篇
ACM 5篇
Deep Learning 56篇
Python基础 24篇
爬虫 4篇

最新评论

QT/C++调试技巧：内存泄漏检测
weixin_42914339: qt x，vs ✔
QT多线程QtConcurrent
CSDN-Ada助手: 尊敬的博主，您的《QT多线程QtConcurrent》一文表达了深入的技术见解和精湛的编程技巧，让我倍感敬佩。您的博客一直是我学习的重要资料，我相信您一定会为我们带来更多有价值的分享。下一篇可能创作的博客标题： "QT信号与槽机制，如何实现优雅的程序设计"。期待您的精彩文章！
Trick: QSplashScreen中设置其他控件，并控制其大小
herosavebeauty: 使用QSS，可以自适应窗口呀。建议你再研究一下
QT/C++调试技巧：内存泄漏检测
忆_恒心: 好文qt内存监测
Trick: QT解决文件冲突两种方式（覆盖、自动重命名）
#Page#: 肯定不能这样设置ConfictMode，要用宏定义或者枚举，不然很容易出错的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。