Python爬中国知网

最新推荐文章于 2024-08-16 07:51:25 发布

置顶清风与酒111

最新推荐文章于 2024-08-16 07:51:25 发布

阅读量2.7k

点赞数 8

分类专栏：爬虫文章标签： python 数据挖掘

本文链接：https://blog.csdn.net/qq_43164534/article/details/106827718

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.爬中国知网官网，需要最基本的文献信息（标题、发布时间、作者、作者单位、摘要等）；如图所示：根据分类采集在房这里插入图片描述
2.scrapy部分代码如下：

    def parse(self, response):

        item = {}

        # with open("aaa.html", "wb") as f:
        #     f.write(response.text.encode("utf-8"))
        # print(response.text)

        total_data = json.loads(response.text)

        data = total_data["rows"]

        for row in data:

            # 标题
            item["title"] = row["Title"]
            # print(row["Title"])

            # 作者
            item['author'] = row["Author"]

            # 内容
            item["summary"] = row["Summary"]

            # 关键字
            item["keyword"] = row["Keyword"]

            # 发布时间
            item["publicationtime"] = row["PublicationTime"]

            # 作者发布机构
            item["authorinstitution"] = row["AuthorInstitution"]

            # 二级分类
            item["sort"] = "互联网技术"

            print(item)