20200221_2_国家非文化遗产爬虫代码

这个爬虫很简单,可以当一个入手的项目练练

from lxml import etree
import json
import requests
import pandas as pd
title=[]
type1=[]
unit=[]
content=[]
protect_unit=[]
rx_time=[]
for i in range(315):
    print('爬取第{}页'.format(i))
    recommed_url='http://www.ihchina.cn/Article/Index/getProject.html?province=&rx_time=&type=&cate=&keywords=&category_id=16&limit=10&p={0}'.format(i)
    res=requests.get(url=recommed_url).content.decode('utf-8','ignore')
    diss_dict=json.loads(res)
    for i in diss_dict['list']:
        title.append(i['title'])#名称
        type1.append(i['type'])#类型
        unit.append(i['unit'])#申报地区或单位
        protect_unit.append(i['protect_unit'])#保护单位
        content.append(i['content'])#内容
        rx_time.append(i['rx_time'])#时间
data={
    '名称':title,
    '类型':type1,
    '申报地区或单位':unit,
    '保护单位':protect_unit,
    '内容':content,
    '时间':rx_time
}
df=pd.DataFrame(data)
df.head()
名称类型申报地区或单位保护单位内容时间
0苗族古歌民间文学贵州省台江县台江县非物质文化遗产保护中心申报地区或单位:贵州省台江县 &lt;br /&gt;\r\n   &lt;br /&gt;...2006</br>(第一批)
1苗族古歌民间文学贵州省黄平县黄平县非物质文化遗产保护中心申报地区或单位:贵州省黄平县 &lt;br /&gt;\r\n   &lt;br /&gt;...2006</br>(第一批)
2苗族古歌民间文学湖南省花垣县花垣县非物质文化遗产保护中心申报地区或单位:湖南省花垣县 &lt;br /&gt;\r\n   &lt;br /&gt;...2011</br>(第三批)
3布洛陀民间文学广西壮族自治区田阳县田阳县文化馆申报地区或单位:广西壮族自治区田阳县 &lt;br /&gt;\r\n   &lt;br /...2006</br>(第一批)
4遮帕麻和遮咪麻民间文学云南省梁河县梁河县文化馆申报地区或单位:云南省梁河县 &lt;br /&gt;\r\n   &lt;br /&gt;...2006</br>(第一批)
df.to_excel('国家非文化遗产1.xlsx',encoding='utf-8')
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值