python爬虫实践之获取常用电话号码

目录

概述

准备

所需模块

涉及知识点

运行效果

完成爬虫

1. 分析网页

2. 爬虫代码


概述

爬取常用的电话号码。

准备

所需模块

  • re模块
  • requests模块

涉及知识点

  • python基础
  • requests模块基础
  • re模块基础

运行效果

控制台打印(图片截取有限,没有全部截取):

完成爬虫

1. 分析网页

打开常用电话号码

按F12分析网页

网页的URL是:https://changyongdianhuahaoma.51240.com/

2. 爬虫代码

import re

import requests

# 爬取常用电话号码

# https://changyongdianhuahaoma.51240.com/
# 使用HTTP请求: http://changyongdianhuahaoma.51240.com/

# 请求的URL
url = "http://changyongdianhuahaoma.51240.com/"
# 请求头
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"
}
# 发送请求,获取响应
response = requests.get(url, headers=header).text
# 正则表达式:提取电话信息,其中[\s\s]*?是处理之间的空格和换行部分
pat1 = r'<tr bgcolor="#EFF7F0">[\s\s]*?<td>(.*?)</td>[\s\s]*?<td>(.*?)</td>[\s\s]*?</tr>'
# 使用compile函数处理正则表达式
pattern1 = re.compile(pat1)
# 根据正则表达式提取数据
data = pattern1.findall(response)
for d in data:  # 循环遍历
    print(d[0], ":", d[1])  # 打印

甚至可以修改下代码将这些号码写入到本地。

import re

import requests

# 爬取常用电话号码

# https://changyongdianhuahaoma.51240.com/
# 使用HTTP请求: http://changyongdianhuahaoma.51240.com/

# 请求的URL
url = "http://changyongdianhuahaoma.51240.com/"
# 请求头
header = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"
}
# 发送请求,获取响应
response = requests.get(url, headers=header).text
# 正则表达式:提取电话信息,其中[\s\s]*?是处理之间的空格和换行部分
pat1 = r'<tr bgcolor="#EFF7F0">[\s\s]*?<td>(.*?)</td>[\s\s]*?<td>(.*?)</td>[\s\s]*?</tr>'
# 使用compile函数处理正则表达式
pattern1 = re.compile(pat1)
# 根据正则表达式提取数据
data = pattern1.findall(response)
for d in data:  # 循环遍历
    print(d[0], ":", d[1])  # 打印
    with open("tel.txt", "a") as file_object:
        file_object.write(d[0] + ":" + str(d[1]) + "\n")  # 保存到本地

查看tel.txt文件

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值