20200221_2_国家非文化遗产爬虫代码_非遗爬取代码-CSDN博客

本文链接：https://blog.csdn.net/qq_39309652/article/details/104672864

本文介绍了一个简单的爬虫项目，用于抓取中国非物质文化遗产项目的详细信息，包括名称、类型、申报单位等，并将数据整理成Excel文件。该项目使用Python的requests库获取网页内容，json库解析数据，以及pandas库进行数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这个爬虫很简单，可以当一个入手的项目练练

from lxml import etree
import json
import requests
import pandas as pd

title=[]
type1=[]
unit=[]
content=[]
protect_unit=[]
rx_time=[]
for i in range(315):
    print('爬取第{}页'.format(i))
    recommed_url='http://www.ihchina.cn/Article/Index/getProject.html?province=&rx_time=&type=&cate=&keywords=&category_id=16&limit=10&p={0}'.format(i)
    res=requests.get(url=recommed_url).content.decode('utf-8','ignore')
    diss_dict=json.loads(res)
    for i in diss_dict['list']:
        title.append(i['title'])#名称
        type1.append(i['type'])#类型
        unit.append(i['unit'])#申报地区或单位
        protect_unit.append(i['protect_unit'])#保护单位
        content.append(i['content'])#内容
        rx_time.append(i['rx_time'])#时间

data={
    '名称':title,
    '类型':type1,
    '申报地区或单位':unit,
    '保护单位':protect_unit,
    '内容':content,
    '时间':rx_time
}
df=pd.DataFrame(data)

df.head()

	名称	类型	申报地区或单位	保护单位	内容	时间
0	苗族古歌	民间文学	贵州省台江县	台江县非物质文化遗产保护中心	申报地区或单位：贵州省台江县 <br />\r\n　　 <br />...	2006</br>(第一批)
1	苗族古歌	民间文学	贵州省黄平县	黄平县非物质文化遗产保护中心	申报地区或单位：贵州省黄平县 <br />\r\n　　 <br />...	2006</br>(第一批)
2	苗族古歌	民间文学	湖南省花垣县	花垣县非物质文化遗产保护中心	申报地区或单位：湖南省花垣县 <br />\r\n　　 <br />...	2011</br>(第三批)
3	布洛陀	民间文学	广西壮族自治区田阳县	田阳县文化馆	申报地区或单位：广西壮族自治区田阳县 <br />\r\n　　 <br /...	2006</br>(第一批)
4	遮帕麻和遮咪麻	民间文学	云南省梁河县	梁河县文化馆	申报地区或单位：云南省梁河县 <br />\r\n　　 <br />...	2006</br>(第一批)

df.to_excel('国家非文化遗产1.xlsx',encoding='utf-8')