1.爬中国知网官网,需要最基本的文献信息(标题、发布时间、作者、作者单位、摘要等);如图所示:根据分类采集
2.scrapy部分代码如下:
def parse(self, response):
item = {}
# with open("aaa.html", "wb") as f:
# f.write(response.text.encode("utf-8"))
# print(response.text)
total_data = json.loads(response.text)
data = total_data["rows"]
for row in data:
# 标题
item["title"] = row["Title"]
# print(row["Title"])
# 作者
item['author'] = row["Author"]
# 内容
item["summary"] = row["Summary"]
# 关键字
item["keyword"] = row["Keyword"]
# 发布时间
item["publicationtime"] = row["PublicationTime"]
# 作者发布机构
item["authorinstitution"] = row["AuthorInstitution"]
# 二级分类
item["sort"] = "互联网技术"
print(item)
- 抓下来数据如下图所示:
代码抓取如下:
4.如果需要完整数据可以加我qq763073105.