Python爬中国知网

1.爬中国知网官网,需要最基本的文献信息(标题、发布时间、作者、作者单位、摘要等);如图所示:根据分类采集在房这里插入图片描述
2.scrapy部分代码如下:

    def parse(self, response):

        item = {}

        # with open("aaa.html", "wb") as f:
        #     f.write(response.text.encode("utf-8"))
        # print(response.text)

        total_data = json.loads(response.text)

        data = total_data["rows"]

        for row in data:

            # 标题
            item["title"] = row["Title"]
            # print(row["Title"])

            # 作者
            item['author'] = row["Author"]

            # 内容
            item["summary"] = row["Summary"]

            # 关键字
            item["keyword"] = row["Keyword"]

            # 发布时间
            item["publicationtime"] = row["PublicationTime"]

            # 作者发布机构
            item["authorinstitution"] = row["AuthorInstitution"]

            # 二级分类
            item["sort"] = "互联网技术"

            print(item)
  1. 抓下来数据如下图所示:
    代码抓取如下:
    在这里插入图片描述
    在这里插入图片描述
    4.如果需要完整数据可以加我qq763073105.
  • 8
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值