网络爬虫
介绍爬虫相关,包括scrapy、beautifulsoup等
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
Webdriver & PhantomJS使用cookie免重复登录
Webdriver & PhantomJS使用cookie免重复登录 最近在接手一个网络爬虫的任务,任务要求登录到某管理系统后台,并抓取数据。该后天相比传统系统不同之处在于其后台全部是由js实现响应,因此传统的爬虫技术束手就擒了,本文先介绍基于webdriver的模拟浏览器操作,以及借助phantomjs完成js触发。直接上代码:#第一次登录时,需要进行账号密码登录def log...原创 2020-02-23 11:24:16 · 1014 阅读 · 0 评论 -
中文维基百科数据爬取与预处理
中文维基百科数据爬取与预处理 前言:阅读本篇博文,您将学会如何使用scrapy框架并基于层次优先队列的网页爬虫以及维基页面的结构与半结构数据自动抽取。项目已经开源于GitHub地址:https://github.com/wjn1996/scrapy_for_zh_wiki,欢迎Star或提出PR。 维基百科(wikipedia) 是目前最大的开放式开放领域百科网站之一,包含包括英文、中文等多种语言。现如今在众多人工智能自然语言处理任务中均取自于维基百科,例如斯坦福大学开源的机器阅读理解评测数据集S原创 2020-11-26 22:42:59 · 11581 阅读 · 22 评论 -
python爬虫获取强智科技教务系统学科成绩(模拟登录+成绩获取)
python爬取强智科技教务系统,以江苏科技大学为例:本人开发的系统作为参考:https://www.wjn1996.cn/estudy/tools/educationLogin.jsp?school=10289&search=1以本人账号为例: 程序如下,保存为test.py,cmd命令执行python3 test.py+学号+密码。可返回所有成绩列表。im...原创 2017-09-05 12:12:52 · 7103 阅读 · 5 评论 -
关于python网络爬虫——摘取新闻标题及链接
Python是最近流行的编程语言,最近学习了python编程,并在网络爬虫方面进行了研究,下面给出简单实例来实现网络信息的获取步骤一:要有python开发环境,可下载python3.5版本,或anaconda3步骤二:在命令行输入jupyter notebook 打开jupyter步骤三:书写如下代码:import requestsfrom bs4 import Beautif原创 2017-09-04 17:42:21 · 1317 阅读 · 1 评论