这个爬虫很简单,可以当一个入手的项目练练
from lxml import etree
import json
import requests
import pandas as pd
title=[]
type1=[]
unit=[]
content=[]
protect_unit=[]
rx_time=[]
for i in range(315):
print('爬取第{}页'.format(i))
recommed_url='http://www.ihchina.cn/Article/Index/getProject.html?province=&rx_time=&type=&cate=&keywords=&category_id=16&limit=10&p={0}'.format(i)
res=requests.get(url=recommed_url).content.decode('utf-8','ignore')
diss_dict=json.loads(res)
for i in diss_dict['list']:
title.append(i['title'])#名称
type1.append(i['type'])#类型
unit.append(i['unit'])#申报地区或单位
protect_unit.append(i['protect_unit'])#保护单位
content.append(i['content'])#内容
rx_time.append(i['rx_time'])#时间
data={
'名称':title,
'类型':type1,
'申报地区或单位':unit,
'保护单位':protect_unit,
'内容':content,
'时间':rx_time
}
df=pd.DataFrame(data)
df.head()
名称 | 类型 | 申报地区或单位 | 保护单位 | 内容 | 时间 | |
---|---|---|---|---|---|---|
0 | 苗族古歌 | 民间文学 | 贵州省台江县 | 台江县非物质文化遗产保护中心 | 申报地区或单位:贵州省台江县 <br />\r\n <br />... | 2006</br>(第一批) |
1 | 苗族古歌 | 民间文学 | 贵州省黄平县 | 黄平县非物质文化遗产保护中心 | 申报地区或单位:贵州省黄平县 <br />\r\n <br />... | 2006</br>(第一批) |
2 | 苗族古歌 | 民间文学 | 湖南省花垣县 | 花垣县非物质文化遗产保护中心 | 申报地区或单位:湖南省花垣县 <br />\r\n <br />... | 2011</br>(第三批) |
3 | 布洛陀 | 民间文学 | 广西壮族自治区田阳县 | 田阳县文化馆 | 申报地区或单位:广西壮族自治区田阳县 <br />\r\n <br /... | 2006</br>(第一批) |
4 | 遮帕麻和遮咪麻 | 民间文学 | 云南省梁河县 | 梁河县文化馆 | 申报地区或单位:云南省梁河县 <br />\r\n <br />... | 2006</br>(第一批) |
df.to_excel('国家非文化遗产1.xlsx',encoding='utf-8')