Python爬虫简介

最新推荐文章于 2023-10-13 14:30:00 发布

不浪费时光jx

最新推荐文章于 2023-10-13 14:30:00 发布

阅读量73

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_55259539/article/details/114268914

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Python爬虫简介

网络爬虫结构
爬虫步骤

网络爬虫结构

在这里插入图片描述

首先选取一部分精心挑选的种子URL。
将这些URL放入待抓取URL队列。
从待抓取URL队列中读取待抓取队列的URL，解析DNS，并且得到主机的IP，并将URL对应的网页下载下来，存储进已下载网页库中。此外，将这些URL放进已抓取URL队列。
分析已抓取URL队列中的URL，从已下载的网页数据中分析出其他URL，并和已抓取的URL进行比较去重，最后将去重过的URL放入待抓取URL队列，从而进入下一个循环。

爬虫步骤

需要模块
1、urllib模块

#第一种方式
import urllib.request 
#第二种方式
from urllib import request

2、re模块

import re

数据挖掘

from urllib import request
url = r"http://www.baidu.com/" #去掉https的s，r是utf8字码
respons = request.urlopen(url).read()
print(respons)

数据清洗

from urllib import request
import re
url = r"http://www.baidu.com/" #去掉https的s，
respons = request.urlopen(url).read().decode() #解码（有中文） ---编码encode
pat = r"<title>(.*?)</title>"
dat = re.findall(pat,respons)
print(dat);

不浪费时光jx

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

不浪费时光jx CSDN认证博客专家 CSDN认证企业博客

码龄4年

51: 原创

53万+: 周排名

40万+: 总排名

8万+: 访问

: 等级

662: 积分

26: 粉丝

53: 获赞

24: 评论

244: 收藏

私信

关注

热门文章

分类专栏

Python学习
学习快乐 2篇
oracle 10篇
java 1篇
mysql 2篇
数据库 1篇
网络 1篇
linux 11篇
python 7篇
疑难杂症 7篇

最新评论

Linux 配置 DNS服务（亲测实操），手把手教你看着一篇就够了
Abro.: thanks!
Linux 配置 DNS服务（亲测实操），手把手教你看着一篇就够了
学习入网: 这是给不会的人看的还是给会的人看的呢？还是博主自己看的。。配置文件写的有点问题吧却少参数。。。。
Linux 配置 DNS服务（亲测实操），手把手教你看着一篇就够了
冷色调的火: 前面有说，才看到，谢佬
Linux 配置 DNS服务（亲测实操），手把手教你看着一篇就够了
冷色调的火: 配置区域文件113.168.192是哪里来的
Linux 配置 DNS服务（亲测实操），手把手教你看着一篇就够了
铁汁来干了这碗代码: 应该是环境没有搭好吧 PING aaa.com (45.60.62.121) 56(84) bytes of data. 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=1 ttl=45 time=201 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=2 ttl=45 time=224 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=3 ttl=45 time=247 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=4 ttl=45 time=175 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=5 ttl=45 time=192 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=6 ttl=45 time=214 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=7 ttl=45 time=237 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=8 ttl=45 time=260 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=9 ttl=45 time=181 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=10 ttl=45 time=205 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=11 ttl=45 time=228 ms 64 bytes from 45.60.62.121 (45.60.62.121): icmp_seq=12 ttl=45 time=251 ms

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。