2021-01-11 如何将网页中的 table 数据导入到自家的数据库（例如mysql 等等，你当然可以用其他的数据库）

最新推荐文章于 2023-01-02 17:48:01 发布

Teleger

最新推荐文章于 2023-01-02 17:48:01 发布

阅读量522

点赞数

分类专栏： DataBases

本文链接：https://blog.csdn.net/teleger/article/details/112462969

版权

DataBases 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目标：爬取锦宏高考网站的大学信息

1. 对于网页中的 table 数据较多页数时，通常地址是按递增的方式也就是，通常+1 等，举个栗子：

这个高考信息网站，列举了大学的名字，特色，学历层次等等，看这个网站的地址是这样的：

http://www.jhgk.cn/findCollege.htm?strCurrentPage=1&pCityId=-1&type=

发现没有 strCurrentPage=1 这个1 就是当前的页码，我们是通过鼠标按下下一页这按钮总结出来的，

其他的网页类似。

2. 用python 代码将该网页的数据，转成文本类型，在这里我们转成 .csv ,（你如果要问为什么）等下给你回答。

请看下面的代码：

import pandas as pd
import time
result  = None
for i in range(1,207):
    temp = str(i)
    url = 'http://www.jhgk.cn/findCollege.htm?strCurrentPage='+ temp + '&pCityId=-1&type=&keyWord='
    tables = pd.read_html(url)
    df2 = tables[1]
    if result is None:
        result = df2
    else:
        result = result.append(df2)
    time.sleep(1)
    print('-----------------')
result
result.to_csv('Result.csv')

参考链接：

史上最简单的爬虫:使用python快速获取web网页中的table数据

这博客中：

3. 得到我们的 .csv 文件后，就可以加入到 mysql 数据库啦，详情请看我们的代码操作，代码出处忘记了，下次找到必贴，谢谢！如有侵犯作者权利，请联系我删除。


import pymysql
import os
import pandas as pd

pd.set_option('expand_frame_repr', False)
pd.set_option('display.max_columns', None)
pd.set_option('colheader_justify', 'centre')

try:
    conn = pymysql.connect(host='localhost', user='root', password='123456', db='gaokao', charset='utf8')
    cur = conn.cursor()
    print('database connect successful')
except:
    print('database connect failed')

os.chdir('/home/work/work/college/')#去到这个文件夹下找.csv 文件，可以有多个
path = os.getcwd()
files = os.listdir(path)

i = 0
for file in files:
    if file.split('.')[-1] in ['csv']:
        i += 1
        filename = file.split('.')[0]
        print('name : ' + filename)
        filename = 'college_table' + filename
        f = pd.read_csv(file)  #
        columns = f.columns.tolist()

        types = f.dtypes
        field = []
        table = []
        char = []
        for item in range(len(columns)):
            if 'object' == str(types[item]):
                char = '`' + columns[item] + '`' + ' VARCHAR(255)'
            elif 'int64' == str(types[item]):
                char = '`' + columns[item] + '`' + ' INT'
            elif 'float64' == str(types[item]):
                char = '`' + columns[item] + '`' + ' FLOAT'
            elif 'datetime64[ns]' == str(types[item]):
                char = '`' + columns[item] + '`' + ' DATETIME'
            else:
                char = '`' + columns[item] + '`' + ' VARCHAR(255)'
            table.append(char)
            field.append('`' + columns[item] + '`')

        tables = ','.join(table)
        fields = ','.join(field)

        cur.execute('drop table if exists {};'.format(filename))
        conn.commit()


        table_sql = 'CREATE TABLE IF NOT EXISTS ' + filename + '(' + 'id INT PRIMARY KEY NOT NULL AUTO_INCREMENT,' + tables + ');'

        print('table_sql: ' + table_sql)
        cur.execute(table_sql)
        conn.commit()



        f_sql = f.astype(object).where(pd.notnull(f), None)
        values = f_sql.values.tolist()
        s = ','.join(['%s' for _ in range(len(f.columns))])
        insert_sql = 'insert into {}({}) values({})'.format(filename,fields,s)
        cur.executemany(insert_sql, values)
        conn.commit()

        print(' ')
cur.close()
conn.close()

可以将我的文件夹路径替换即可，（当然，你的数据库密码，名称根据你自己的去更改咯）