python爬虫篇3——爬取采购合同公示数据

最新推荐文章于 2024-08-15 20:09:27 发布

昕楠

最新推荐文章于 2024-08-15 20:09:27 发布

阅读量2.1k

点赞数 1

分类专栏： python 文章标签：爬虫 python mysql

本文链接：https://blog.csdn.net/qq_35595164/article/details/103611543

版权

本文介绍了使用Python爬虫抓取采购合同公示数据，并详细展示了如何将爬取的数据存储到MySQL数据库的过程。程序包含Python爬虫代码及MySQL数据库操作示例，虽然可能含有部分错误，作者期待与读者交流与改进。

摘要由CSDN通过智能技术生成

程序运行截图：

mysql代码：

create table htgs(
   id int primary key,
   cgdw varchar(2000),
   cgmc varchar(2000),
   zbdw varchar(2000),
   htid varchar(2000),
   htvalue varchar(2000),
   zbgyskhbank varchar(2000),
   zbgyskhzh varchar(2000),
   hturl varchar(2000),
   fbtime varchar(200)
);

python代码：

# 2019/7/5
import json
import random
import re
from urllib import parse

import requests
import pymysql

# 打开数据库连接

db = pymysql.connect(host='localhost',
                     port=8080,
                     user='root',
                     passwd='123',
                     db='students',
                     charset='utf8')
# 使用 cursor() 方法创建一个游标对象 cursor
cursor = db.cursor()

"""是否结束爬取（继增用）"""
over = False


# 通过地址获取数据
def get_data(url):
    """通过html获取页面内容"""
    global over
    URL = "http://www.ccgp-jiangxi.gov.cn/web/jyxx/002006/002006006/%i.html" % url
    try:
        respose = requests.get(URL)
    except requests.exceptions.ConnectionError:
        respose = requests.get(URL)
    print("*" * 300)
    print("开始爬取第%i页的政府采购合同公示数据！" % url)
    # 获取合同公示内容
    contents = re.findall(
        r'<li class="ewb-list-node clearfix">.*?<a href="(.*?)" target="_blank" class="ewb-list-name">',
        respose.text, re.S)
    times = re.findall(
        r'<span class="ewb-list-date">(.*?)</span>',
        respose.text, re.S)
    # print("\033[34m合同公示内容：%s" % str(contents))
    print("合同公示数量：%s" % len(contents) + "条")
    print("发布时间：%s" % str(times[0]))
    print("*" * 300)

    for temp in range(len(contents)):
        # """过滤网页标签"""
        # dr = re.compile(r'<[^>]+>', re.S)
        # print(str(dr.sub('', time[0])