Python爬虫之——爬去湖北所有网吧名和位置信息（附爬去数据表）

最新推荐文章于 2022-02-11 10:45:32 发布

笔记本做笔记

最新推荐文章于 2022-02-11 10:45:32 发布

阅读量1.6k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_42444621/article/details/83994174

版权

大数据专栏收录该内容

33 篇文章 1 订阅

订阅专栏

表链接

https://pan.baidu.com/s/1ZDmSqRoJTNyG8YvTRVnhpw

源码

import requests import re # 获取网吧信息 def getWB(url,head,city_name): page = requests.get(url,head) html = page.text wb_name = re.findall('<li><a href="/ditu/wangbawk.*?>(.*?)</a></li>',html) wb_addre = re.findall('<strong>地址：</strong>(.*?)</li>',html) w = open('C:\\Users\\EDZ\\Desktop\\测试\\新建文本文档.txt','a') print('开始抓取'+city_name+'网吧数据...') for i in range(0,len(wb_name)): w.write(wb_name[i]+' '+wb_addre[i]+' '+city_name+'\r\n') print(city_name+'网吧数据抓取完成。') w.close() #获取网页 def getCityCode(): citys_code = ['wuhan','enshi','jingmen','xiaogan','huanggang','ezhou','xianning','jingzhou','yichang','suizhou','shiyan','huangshi','xiangyang','tianmenshi','xiantaoshi','qianjiang'] return citys_code #获取城市名 def getCityName(): citys_name = ['武汉市', '恩施土家苗族自治州', '荆门市', '孝感市', '黄冈市', '鄂州市', '咸宁市', '荆州市', '宜昌市', '随州市', '十堰市', '黄石市', '襄阳市', '天门市', '仙桃市', '潜江市'] return citys_name if __name__ == '__main__': #请求头 head ={ 'Usear-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3573.0 Safari/537.36' } citys_code = getCityCode() citys_name = getCityName() for index in range(0,len(citys_name)): city_code = citys_code[index] city_name = citys_name[index] for i in range(1,20): url = 'http://www.go007.com/ditu/wangbawk_'+city_code+'/p'+str(i)+'/' # 爬取网吧数据 # print(city_name+ ' '+city_code) getWB(url,head,city_name) print('over')

笔记本做笔记

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
Python爬虫之——爬去湖北所有网吧名和位置信息（附爬去数据表）

表链接 https://pan.baidu.com/s/1ZDmSqRoJTNyG8YvTRVnhpw源码import requestsimport re# 获取网吧信息def getWB(url,head,city_name):page = requests.get(url,head)html = page.textwb_name = re.findall('&lt;li...
复制链接

扫一扫