Python 爬取国家统计局的省市区数据

最新推荐文章于 2024-05-13 21:32:59 发布

chilunfu1514

最新推荐文章于 2024-05-13 21:32:59 发布

阅读量2.1k

点赞数

文章标签： python 爬虫数据库

原文链接：https://my.oschina.net/u/2984386/blog/1863100

版权

说明：

数据暂时不能爬取全，由于频繁请求会超时
建议配置多个代理轮询调用爬去
只爬取到区的信息，可以不用上代理

# -*-coding:utf-8 -*-
import urllib2
import sys

# 接上面代码
from bs4 import BeautifulSoup as bs

reload(sys)
sys.setdefaultencoding('GBK')


def get_url_content(url):
    i_headers = {"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1) Gecko/20090624 Firefox/3.5", \
                 "Referer": 'http://www.baidu.com'}
    req = urllib2.Request(url, headers=i_headers)
    # proxies = {"http": "114.244.112.220:8118"}  # 设置你想要使用的代理
    # proxy_s = urllib2.ProxyHandler(proxies)
    # opener = urllib2.build_opener(proxy_s)
    # urllib2.install_opener(opener)
    return urllib2.urlopen(req, timeout=10).read().decode('GBK')


html_data = get_url_conte

最低0.47元/天解锁文章

chilunfu1514

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python 爬取国家统计局的省市区数据

说明：数据暂时不能爬取全，由于频繁请求会超时建议配置多个代理轮询调用爬去只爬取到区的信息，可以不用上代理 # -*-coding:utf-8 -*-import urllib2import sys# 接上面代码from bs4 import ...
复制链接

扫一扫