爬取肯德基官网的门店位置信息(现在已经进不去了,所以现在返回的全是-1000):
import urllib.request
import urllib.parse
def create_request(page):
base_url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname'
headers = {
'User-Agent': '',
}
data = {
'cname': '北京',
'pid': '',
'pageIndex': page,
'pageSize': '10'
}
data = urllib.parse.urlencode(data).encode('utf-8')
request = urllib.request.Request(base_url, data, headers)
return request
def get_content(request):
response = urllib.request.urlopen(request)
content = response.read().decode('utf-8')
return content
def down_load(page, content):
fp = open('files/kfc' + str(page) + '.json', 'w', encoding='utf-8')
fp.write(content)
if __name__ == '__main__':
start_page = 1
end_page = 10
for page in range(start_page, end_page+1):
# 请求对象的定制
request = create_request(page)
# 获取网页源码
content = get_content(request)
# 下载到本地
down_load(page, content)
该代码示例是一个Python爬虫程序,用于抓取肯德基官网的北京地区门店列表。它通过构造HTTP请求,发送GET参数,然后解码响应内容并将其写入本地JSON文件。但由于目前无法访问该网址,程序返回-1000作为错误代码。
741

被折叠的 条评论
为什么被折叠?



