【爬虫】
爬虫学习和实例
IFFQ
Java
展开
-
Python爬取论文标题、作者、摘要等信息并存入MySQL--简述爬虫是如何将爬取数据存入MySQL数据库
爬虫仅为相互学习,勿做他用!!!爬虫部分爬取数据爬虫目标数据各期刊论文的标题、作者、摘要、发表时间等信息如下:爬虫目标网站目标网站:计算机研究与发展其中,设我们需要爬取的数据为该网站 2018 年开始 到至今(2020.1)的所有期刊论文信息,下面看自2018年1月(即2018 第一期)开始的各期论文站点信息:期号网页地址2018.1http:/...原创 2020-03-30 17:08:02 · 5302 阅读 · 6 评论 -
爬虫入门之最好大学网--专项学科全国排名爬虫
爬虫目的抓取专项学科获取该学科在全国各高校的排名情况获取该学科所在高校在全国的综合排名情况获取该学科全国范围博士点的数量获取该学科的重点学科院校情况根据网址爬取网页使用最基本的网页爬取通用框架:# url为要爬取的网址,函数返回爬取网址的网页内容def getHTMLText(url): try: r = requests.get(url,timeout...原创 2020-03-18 17:17:15 · 1330 阅读 · 3 评论 -
Python爬虫异常---TypeError: unsupported format string passed to NoneType.__format__
今天爬虫时偶遇的一个问题:当你爬取的网站对应位置没有内容(为空)时,python爬虫获取的值为 NoneType(<class ‘NoneType’>),然后就直接格式化输出(format),结果当然GG!!下面谈谈这个问题:原因:正如所报异常的意思,format格式化输出不支持NoneType类型。Debug:不通过格式化输出打印爬虫获取的内容,发现有些数据域对应的值为None...原创 2020-03-14 20:18:46 · 7838 阅读 · 1 评论 -
爬虫的“黄金搭档”---requests库的详细介绍
什么是requestsRequests is an elegant an simple HTTP library for Python.Requests是一个优雅而简单的HTTP库。requests库是一个常用的用于http请求的模块,它使用python语言编写,可以方便的对网页进行爬取,是学习python爬虫的较好的http请求模块。requests的安装Win平台:“以管理员身份...原创 2020-02-28 22:04:10 · 1412 阅读 · 0 评论