python爬取知网论文的关键词摘要_Python爬虫根据关键词爬取知网论文摘要并保存到数据库中-Go语言中文社区...

本文介绍了一种使用Python爬虫从知网抓取论文摘要和关键词的方法。通过分析网页结构,实现了从指定关键词出发获取论文链接,并存储到数据库中的功能。示例代码展示了如何使用requests和BeautifulSoup库解析HTML,以及使用pymysql连接MySQL数据库进行数据存储。
摘要由CSDN通过智能技术生成

由于实验室需要一些语料做研究,语料要求是知网上的论文摘要,但是目前最新版的知网爬起来有些麻烦,所以我利用的是知网的另外一个搜索接口

搜索出来的结果和知网上的结果几乎一样

在这个基础上,我简单看了些网页的结构,很容易就能写出爬取得代码(是最基础的,相当不完善,增加其他功能可自行增加)

d71a90b201cdc050f4b36a14c99ba12f.png

网页的结构还是很清晰的

4b21fe3bf9dcbfb39b3201d09eb275de.png

摘要信息也很清晰

我使用的是 pymysql 连接的数据库,效率也还可以

下面直接贴代码:

# -*- coding: utf-8 -*-

import time

import re

import random

import requests

from bs4 import BeautifulSoup

import pymysql

connection = pymysql.connect(host='',

user='',

password='',

db='&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值