爬虫
文章平均质量分 60
Ali_aaaa
这个作者很懒,什么都没留下…
展开
-
python爬取豆瓣小说——BeautifulSoup
前言网络爬虫程序的核心任务就是获取网络上的数据,并对特定的数据做一些处理。因此,如何“采集 ”所需的数据往往成为爬虫成功与否的重点。数据采集最常见的任务就是从网页中抽取数据,一般所说的“抓取”就是指这个动作。抓取工具有:正则表达式(即python的正则表达式库——re模块)、Xpath、BeautifulSoup模块及lxml模块。本文采取BeautifulSoup模块来进行抓取定位。任务从豆瓣读书网站爬取小说标签下的书名、作者、评分信息。一、导入相关包import requestsfrom原创 2021-05-08 23:20:01 · 3061 阅读 · 0 评论 -
豆瓣影评爬取——哥斯拉大战金刚短评
豆瓣影评爬取和情感分析——哥斯拉大战金刚短评(小白初学)1、抓取网页数据使用python爬虫技术xpath、requests进行爬取哥斯拉大战金刚的短评网页,网页地址:https://movie.douban.com/subject/26613692/comments其中,26613692为《哥斯拉大战金刚》的电影ID号,以上网页可以获取20个影评,我们可以指定start参数来获取更多的影评,例如:https://movie.douban.com/subject/26900949/comments原创 2021-04-29 10:15:30 · 465 阅读 · 0 评论