网络爬虫概述

最新推荐文章于 2024-05-11 08:31:16 发布

小凡光光

最新推荐文章于 2024-05-11 08:31:16 发布

阅读量728

点赞数

分类专栏：爬虫文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lfglfglfglfg/article/details/78764456

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、概述

网络爬虫事一种按照一定的规则，自动抓取万维网信息的程序或者脚本。

2、分类

网络爬虫按照系统结构和实现技术，大致可以分为以下几种：

1）通用型爬虫

2）聚焦型爬虫

3）增量式爬虫

4）深层网络爬虫

3、基本结构

1）URL管理器

2）HTML下载器

3）HTML解析器

4）数据存储器

5）爬虫调度器

4、HTTP请求Python实现

1) urllib2/urllib实现

GET:

import urllib2

response=urllib2.urlopen('http://www.zhihu.com')

html=response.read()

print(html)

POST:

import urllib

import urllib2

url='http://www.zhihu.com'

postdata={'username' : 'u',

'password' : 'p'}

data=urllib.urlencode(postdata)

req=urllib2.Request(url,data)

response=urllib2.urlopen(req)

html=response.read()

2) 第三方库requests实现

GET:

import requests

r=requests.get('http://www.zhihu.com')

print(r.content)

POST:

import requests

r=requests.get('http://zhihu.com')

print(r.content)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫概述

1、概述网络爬虫事一种按照一定的规则，自动抓取万维网信息的程序或者脚本。2、分类网络爬虫按照系统结构和实现技术，大致可以分为以下几种：1）通用型爬虫2）聚焦型爬虫3）增量式爬虫4）深层网络爬虫3、基本结构1）URL管理器2）HTML下载器3）HTML解析器4）数据存储器5）爬虫调度器4、HTTP请求Python实现1) urllib2/
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。