Python爬取网页数据示例

3 篇文章 0 订阅
2 篇文章 0 订阅
  • 使用requests库
  • 使用re模块清洗响应数据
    从便民网站爬取常用电话,并将其写入文件,以便查询
    代码如下:
"""
topic:爬取“便民查询网上的常用号码”
author:小灵子
date:2019-5-31
思路:先从开发者工具找到相应请求头、url等等
<tr bgcolor="#EFF7F0">
        <td>匪警</td>
        <td>110</td>
      </tr>

"""
import re
import requests
import json

headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) Ap\
pleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Sa\
fari/537.36"
}

response = requests.get("http://changyongdianhuahaoma.51240.com/",headers=headers)
text = response.text

pattern = r'<tr bgcolor=".*?">\s{1,}<td>(.+?)</td>\s{1,}<td>(.+?)</td>\s+</tr>'
stuffs = re.findall(pattern, text)

data_dict = {}
for stuff in stuffs:
	print(stuff)
	data_dict[stuff[0]] = stuff[1]
try:
	with open("D:/testDrectory/data", "w") as f:
		json.dump(data_dict,f)
except Exception as e:
	print(e)

with open("D:/testDrectory/data", "rb") as f:
	dict = json.load(f)
	name = input("输入公司名称:")
	print("电话号码:",dict[name])


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值