《四维交通指数》网站爬虫（scrapy），其中包含对地理数据的处理，例如将获取数据去除双引号和逗号，并转换为二进制并存储到postgreSQL数据库中

最新推荐文章于 2020-09-15 03:18:36 发布

天下同春

最新推荐文章于 2020-09-15 03:18:36 发布

阅读量1.3k

点赞数

分类专栏：爬虫师数据分析师文章标签： scrapy爬虫 json数据解析去除引号和换行符空间数据的存储MultLineString用法

本文链接：https://blog.csdn.net/TheOneXIAOKUI/article/details/90061875

版权

《四维交通指数》爬取

- 目标网站：
代码部分

目标网站：

http://www.nitrafficindex.com/，此例只是获取了宁波的数据，若需获取其他城市的数据请另行修改

代码部分

class SiweiTrafficSpider(crawler.BaseCrawlSpider):
    # 设置时间间隔
    custom_settings = {'DOWNLOAD_DELAY': 3}
    name = "siwei_traffic"
    def __init__(self,*args, **kwargs):
        super(SiweiTrafficSpider, self).__init__(*args, **kwargs)
        self.allowed_domains+= ["nitrafficindex.com"]

    def start_requests(self):
        # 页数循环
        for i in range(1,5):

            url = 'http://www.nitrafficindex.com/traffic/getRoadIndex.do'
            # 获取每一页中的rows中的数据
            form_data = {
                            'areaCode': '330200',
                            'roadLevel': '1, 2, 3, 4',
                            'page': str(i),
                            'rows': '10',
            }
            # 抛出请求
            yield scrapy.FormRequest(
                url,
                formdata=form_data,
                callback=self.parse,

            )

    def parse(self, response):
        try:
            for i in range(0,10):
                jsobj = json.loads(response.text)
                # 获取roads的id，根据id进入下一层从而获取每一行的数据
                id1 = jsobj['rows'][i]["id"]
                # 获取道路等级
                roadgrade = jsobj['rows'][i]["roadGrade"]
                road_id = jsobj['ro

最低0.47元/天解锁文章

天下同春

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
《四维交通指数》网站爬虫（scrapy），其中包含对地理数据的处理，例如将获取数据去除双引号和逗号，并转换为二进制并存储到postgreSQL数据库中

《四维交通指数》爬取代码部分重点（部分数据的处理）代码部分class SiweiTrafficSpider(crawler.BaseCrawlSpider): # 设置时间间隔 custom_settings = {'DOWNLOAD_DELAY': 3} name = "siwei_traffic" def __init__(self,*args, **kwa...
复制链接

扫一扫