爬虫
从零开始的奋豆
一名大学生
展开
-
爬虫之牛刀小试(十一):爬取某东关于手机的评论
我爬了某东上万条评论!原创 2024-02-16 21:14:08 · 1026 阅读 · 0 评论 -
爬虫之牛刀小试(十):爬取某宝手机商品的销量,价格和店铺
原来爬取商品数据如此简单原创 2024-02-16 21:10:14 · 1037 阅读 · 0 评论 -
爬虫之牛刀小试(九):爬取小说
最近新开了公众号,请大家关注一下。今天爬取的是一本小说。原创 2024-01-24 22:10:14 · 457 阅读 · 0 评论 -
爬虫之牛刀小试(八):爬取微博评论
可以发现其特点是下一页评论的max_id在上一页中。最近新开了公众号,请大家关注一下。今天爬取的是微博评论。原创 2024-01-19 23:39:53 · 1241 阅读 · 0 评论 -
爬虫之牛刀小试(七):爬取某二手车网站
关键在于clue_id怎么获取,发现在其上一个网页中有clue_id,于是就解决了。最近新开了公众号,请大家关注一下。今天爬取的是某二手车网站。原创 2024-01-17 11:24:56 · 409 阅读 · 0 评论 -
爬虫之牛刀小试(六):爬取BOSS网站招聘的内容
想要找到我们感兴趣的职位,随便举个例子吧,比如家教啥的。接着找到对应的位置让selenium自己干就行了。最近新开了公众号,请大家关注一下。今天决定再次尝试一下。找到我们感兴趣的内容。原创 2024-01-14 18:01:47 · 518 阅读 · 0 评论 -
爬虫之牛刀小试(五):爬取B站的用户评论
接着我们的目标要获取多个网址(类似于https://api.bilibili.com/x/v2/reply/wbi/main?使用selenium来模仿人的动作,获取多个网址,关键是B站需要登陆就很难受,不知道为什么Cookie用不了,只好手动操作一下了。此次共读取了20X10共计200条评论,每一个网址有20条评论,需要花费大约30s左右,共计爬十个。小小地出手一下,这次使用selenium来自动化进行爬取,虽然速度很慢,但是还可以接受。找到你想要的值,对了,时间记得要转化一下,不然会出错!原创 2024-01-13 23:26:44 · 839 阅读 · 0 评论 -
爬虫之牛刀小试(四):爬取B站番剧的简介
每个作品对应一个链接: https://www.bilibili.com/bangumi/play/ss…于是肯定了对应的api接口:api.bilibili.com /pgc/review/user?获取每部番剧的title和url就行,接着只要匹配获取简介的内容就行了。User-Agent和cookie用自己的,具体可以自行搜索如何操作。我们只要选出我们感兴趣的内容,比如配音演员,硬币等内容。首先我们来到番剧索引中,随便点开一部动漫,检查代码。这样子就解决了如何爬取每部番剧的网址了。原创 2024-01-13 16:56:47 · 611 阅读 · 0 评论 -
爬虫之牛刀小试(三):爬取中国天气网全国天气
paser_url(url) 函数用于解析每个区域页面的 HTML,提取出城市名、最高温度、最低温度、风向、风级和天气数据,并将这些数据以字典的形式添加到 ALL_DATA 列表中。使用了 requests 库来发送 HTTP 请求,使用 BeautifulSoup 库来解析 HTML,使用 time 库来暂停执行。spider() 函数遍历所有区域的 URL,对每个 URL 调用 paser_url(url) 函数,并在每次调用后暂停 1 秒。最近新开了公众号,请大家关注一下。原创 2024-01-11 16:33:33 · 445 阅读 · 0 评论 -
爬虫之牛刀小试(二):爬古诗文网的数据
spider_page(url): 这个函数从给定的 URL 获取古诗。它首先发送一个 GET 请求到 URL,然后解析返回的 HTML 文档,提取出诗词的标题、朝代、作者、内容和图片 URL。spider(): 这是主函数,它遍历诗词列表页的 URL,对每个诗词列表页调用 spider_page(url) 函数获取诗词信息,然后将所有诗词的信息打印出来。这次利用的是re,上一篇用的是xpath和bs4。最近新开了公众号,请大家关注一下。原创 2024-01-11 15:43:43 · 977 阅读 · 0 评论 -
爬虫之牛刀小试(一):爬取电影天堂最新的电影数据
spider(): 这是主函数,它遍历电影列表页的 URL,对每个电影列表页调用 get_detail_urls(url) 函数获取电影详情页的 URL,然后对每个电影详情页的 URL 调用 parse_detail_urls(detail_url) 函数解析电影信息,最后将所有电影的信息打印出来。它首先发送一个 GET 请求到电影详情页 URL,然后解析返回的 HTML 文档,提取出电影的标题、封面图片 URL、年份、国家、类别、豆瓣评分、片长、导演、主演、简介、截图和下载链接。原创 2024-01-11 14:50:16 · 631 阅读 · 0 评论