python爬虫之urllib库数据挖掘

最新推荐文章于 2024-06-21 12:33:31 发布

PRINT！

最新推荐文章于 2024-06-21 12:33:31 发布

阅读量224

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/qq_48592827/article/details/116106592

版权

python爬虫（一）

提示：文章内容只有稀少了专业词汇（其实只是我的知识面太窄了QAQ），绝对适合小白学习。
前提：小白已掌握python基础知识

文章目录

python爬虫（一）
一、概念性必要知识
二、第一个爬虫
总结

提示：以下是本篇文章正文内容，下面案例可供参考

一、概念性必要知识

1. 爬虫步骤

爬虫就是对网页数据进行爬取，通过一些规则来进行提取我们需要的数据即可。

数据挖掘 ----> 爬取源代码
数据清洗 ----> 在众多源代码中得到我们需要的数据

2. 两种爬虫方式

通用爬虫（了解）
① 抓取网页，像百度谷歌这些搜索引擎
② 数据存储，把爬取的网页存到数据库
③ 预处理，就是数据清洗
④ 提供检索
绝大部分都是没有用的东西，
聚焦爬虫（常用）
面向特定内容进行爬取，可以去确定需求
内容比较多，后面进行详细讲解…

3. 请求和响应（了解）

服务器里装的网站数据、前端网页信息、中间层(数据处理)、数据库。
用户通过浏览器发送请求到服务器的中间层(对请求进行解析，查询到数据) 通过数据再去前端响应
在这里插入图片描述
百度搜索 —> 输入搜索内容 —>返回结果页面

4. URL（统一资源定位符）：就是网址

① 协议（http、https）
② host（IP地址、域名、eg:192.168…)
③ port（服务器端口号，一般是80，80可以省略）
④ path（访问资源的路径）
⑤ query-string （参数，发送给http服务器的数据）
例如：https://www.baidu.com/s?wd=pyhton
“？”后面就是参数，多个参数用“&”连接

5. Get和Post

get：参数可以放在url，如https://www.baidu.com/s?wd=pyhton
post：参数不能放在url，通常用于提交大量的数据，或者涉及到安全性的数据

二、第一个爬虫

1. 引入模块：request

引入模块的两种方式：

import urllib.request
from urllib import request

2. 定义URL

url = r"http://www.baidu.com/"
“r” 防止url中存在转义字符（建议加 r）
注意：url中通常用http（因为https要比http安全一些，可能爬取不了）

3.发送请求

在urllib.request模块下有一个urlopen()，可以直接把url放在里面，当urlopen(url)方法执行时浏览器就会给百度的服务器发送请求(url中的内容)，再通过read()方法来读取，最后用一个变量reponse来接收返回的信息
以下代码就是数据挖掘：

# 导入模块
from urllib import request

# 定义url
url = r"http://www.baidu.com/"

# 发送请求 获取响应信息	
response = request.urlopen(url).read()

如果数据中存在中文会通过二进制的方式进行存储

4. 中文问题的解决方法

通过上面的代码我们得到的 response 是一个二进制类型(字节码），我们可以通过decode()方法进行解码， response = request.urlopen(url).read().decode这样我们就可以得到一个 str 字符串类型的 response ，这样就可以正常显示中文信息
总的一句话来说就是加一个decode()

5. 简单的数据清洗（正则表达式）

通过以上代码获取到百度的网页信息，接下来通过正则表达式来进行数据清洗得到我们需要的数据。
这里需要引入模块：import re（正则表达式的模块）

# 导入模块
from urllib import request
import re

# 定义url
url = r"http://www.baidu.com/"

# 发送请求 获取响应信息	request自动创建请求对象
response = request.urlopen(url).read().decode() #编码

# 数据清洗 得到我们需要的数据存放在变量pat中
pat = r"<title>(.*?)</title>" # 获取title标签中间的内容

# 变量data来存储我们需要的数据
data = re.findall(pat,response)  # 返回列表

这里涉及到了正则表达式的使用，推荐大家去编程胶囊学习一下。
在这里插入图片描述
注意：最后得到的 data 是一个 list 列表类型

总结

数据挖掘：通过urllib去获取信息
数据清洗：通过正则表达式进行数据清洗
最后得到整个网页中得到我们需要的信息

PRINT！

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
python爬虫之urllib库数据挖掘

python爬虫之urllib库数据挖掘提示：文章内容只有稀少了专业词汇（其实只是我的知识面太窄了QAQ），绝对适合小白学习。前提：小白已掌握python基础知识文章目录python爬虫之urllib库数据挖掘一、概念性必要知识1. 爬虫步骤2. 两种爬虫方式3. 请求和响应（了解）4. URL（统一资源定位符）：就是网址5. Get和Post二、第一个爬虫1. 引入模块：request2. 定义URL3.发送请求4. 中文问题的解决方法5. 简单的数据清洗（正则表达式）总结提示：以下是本篇文
复制链接

扫一扫