python爬虫之urllib库数据挖掘

python爬虫(一)

提示:文章内容只有稀少了专业词汇(其实只是我的知识面太窄了QAQ),绝对适合小白学习。
前提:小白已掌握python基础知识



提示:以下是本篇文章正文内容,下面案例可供参考

一、概念性必要知识

1. 爬虫步骤

爬虫就是对网页数据进行爬取,通过一些规则来进行提取我们需要的数据即可。
  1. 数据挖掘 ----> 爬取源代码
  2. 数据清洗 ----> 在众多源代码中得到我们需要的数据

2. 两种爬虫方式

  1. 通用爬虫(了解)
    ① 抓取网页,像百度谷歌这些搜索引擎
    ② 数据存储,把爬取的网页存到数据库
    ③ 预处理,就是数据清洗
    ④ 提供检索
    绝大部分都是没有用的东西,
  2. 聚焦爬虫(常用)
    面向特定内容进行爬取,可以去确定需求
    内容比较多,后面进行详细讲解…

3. 请求和响应(了解)

服务器里装的网站数据、前端网页信息、中间层(数据处理)、数据库。
用户 通过浏览器发送请求 到服务器的中间层(对请求进行解析,查询到数据) 通过数据再去前端响应
在这里插入图片描述
百度搜索 —> 输入搜索内容 —>返回结果页面

4. URL(统一资源定位符):就是网址

① 协议(http、https)
② host(IP地址、域名、eg:192.168…)
③ port(服务器端口号,一般是80,80可以省略)
④ path(访问资源的路径)
⑤ query-string (参数,发送给http服务器的数据)
例如:https://www.baidu.com/s?wd=pyhton
“?”后面就是参数,多个参数用“&”连接

5. Get和Post

  • get:参数可以放在url,如https://www.baidu.com/s?wd=pyhton
  • post:参数不能放在url,通常用于提交大量的数据,或者涉及到安全性的数据

二、第一个爬虫

1. 引入模块:request

引入模块的两种方式:
  1. import urllib.request
  2. from urllib import request

2. 定义URL

url = r"http://www.baidu.com/"
“r” 防止url中存在转义字符(建议加 r)
注意:url中通常用http(因为https要比http安全一些,可能爬取不了)

3.发送请求

在urllib.request模块下有一个urlopen(),可以直接把url放在里面,当urlopen(url)方法执行时浏览器就会给百度的服务器发送请求(url中的内容),再通过read()方法来读取,最后用一个变量reponse来接收返回的信息
以下代码就是数据挖掘:

# 导入模块
from urllib import request

# 定义url
url = r"http://www.baidu.com/"

# 发送请求 获取响应信息	
response = request.urlopen(url).read()

如果数据中存在中文会通过二进制的方式进行存储

4. 中文问题的解决方法

通过上面的代码我们得到的 response 是一个二进制类型(字节码),我们可以通过decode()方法进行解码, response = request.urlopen(url).read().decode这样我们就可以得到一个 str 字符串类型的 response ,这样就可以正常显示中文信息
总的一句话来说就是加一个decode()

5. 简单的数据清洗(正则表达式)

通过以上代码获取到百度的网页信息,接下来通过正则表达式来进行数据清洗得到我们需要的数据。
这里需要引入模块:import re(正则表达式的模块)

# 导入模块
from urllib import request
import re

# 定义url
url = r"http://www.baidu.com/"

# 发送请求 获取响应信息	request自动创建请求对象
response = request.urlopen(url).read().decode() #编码

# 数据清洗 得到我们需要的数据存放在变量pat中
pat = r"<title>(.*?)</title>" # 获取title标签中间的内容

# 变量data来存储我们需要的数据
data = re.findall(pat,response)  # 返回列表

这里涉及到了正则表达式的使用,推荐大家去编程胶囊学习一下。
在这里插入图片描述
注意:最后得到的 data 是一个 list 列表类型


总结

数据挖掘:通过urllib去获取信息
数据清洗:通过正则表达式进行数据清洗
最后得到整个网页中得到我们需要的信息

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PRINT!

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值