爬虫
文章平均质量分 70
白速龙王的回眸
一命二运三风水
四积功德五读书
六名七相八敬神
九交贵人十养生
展开
-
【scrapy实战】获取我的博客信息
需求之前写过一个blog,是通过基本的bs4完成爬取的:传送门这样写动态爬虫的缺点包括:1.速度慢2.需要额外的解析3.要额外判断blink信息,没有容错机制因此,我们考虑使用scrapy框架,源码在我的github仓库scrapy爬取博客源码scrapy框架scrapy框架是一个全家桶爬虫item定义需要爬取的对象和属性pipeline定义过滤规则settings定义配置信息article是爬虫程序,定义如何迭代访问不同的url核心就是article的编写!!关于scra原创 2022-03-17 16:30:46 · 1700 阅读 · 0 评论 -
【动态爬虫】博客信息统计
前言某马帮忙爬了一下我的博客数据,奈何代码不入流,我这里重构一下顺便记录一下整个爬虫的分析、构建和编码过程需求爬取我自己的每个博客的[‘博客名’, ‘阅读量’, ‘好评数’, ‘差评数’, ‘评论数’, ‘收藏数’, ‘链接’]点开,检查,我们依次看看它们对应的标签是个啥title:title = soup.find('h1', class_='title-article', id='articleContentId').text.strip()如上图代码,title就轻易得到了,r原创 2022-03-14 21:54:42 · 867 阅读 · 0 评论 -
爬虫——豆瓣top250电影爬取实验
1.获取头部我们首先需要去到目标网址豆瓣top250上,点开‘检查’选项,获取头部信息,具体见下图:我们赋值user-agent和host的信息,这是一个爬虫隐身的最好方法。于是有以下代码:headers = { 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36', 'H原创 2021-04-22 21:22:03 · 2168 阅读 · 0 评论 -
python——我的第一个爬虫
序:一直对数据分析有一种向往,但很少有机会接触。今日在空闲时间里简单学了一下爬虫的基本功,在这里和大家一起分享!爬虫:所谓爬虫,就是从指定的网站上抓取一定的数据。无非就是三板斧,构建网络链接、抓取数据、存储数据。我们这里以本人的csdn主页作为实验网址(希望csdn没有robot协议,如果有的话这样有可能会违法)我想抓取我最新文章的标题“桥牌坐庄训练bm2000 level3闯关记录——A2”,这怎么办呢?我们一步一步来探讨。实验环境:anaconda jupyter notebook pyt原创 2021-04-09 18:33:48 · 213 阅读 · 0 评论