【加密社】3分钟快速制作一个爬虫?不懂编程也没关系

15 篇文章 1 订阅
6 篇文章 0 订阅

先上图,我们爬取的是某个区块链快讯的网站。

  • 为什么我们要使用爬虫?

图片

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。
 

原则上,只要是浏览器(客户端)能做的事情,爬虫都能够做。

像电商网站(比如亚马逊、淘宝)每天都会有大量的商品上新和用户评论。而在搜索引擎中,随便搜索一个热门关键词,比如“智能手机”,就能找到成千上万条相关的网页信息。

面对如此庞大的信息量,我们如何从中找到对我们有用的信息呢?

答案自然是筛选,那你作为用户,又没有权力直接进入人家数据库去筛选。那咋办呢?

那就需要用到我们的 “爬虫” 了

尽管网络爬虫这个名字听起来有点怪异,让人联想到那些软软蠕动的小生物,但它实际上是一个在网络世界中非常强大的工具。

网络爬虫可以帮助我们在海量的信息中快速找到我们需要的内容,为我们提供决策支持和有用的数据。

  • 如何快速制作一个爬虫(Python)

图片

1.安装环境

首先第一步,那肯定是要先安装python环境了,类似的教程网上有很多,在这里我就不介绍了。

2.安装依赖库

pip install beautifulsoup4

比如我的文件夹在,这个路径下,那么我在这个路径下运行cmd,输入上面的命令

图片

一旦安装完成,你就可以开始使用 BeautifulSoup 来解析 HTML 文档了。

3.选择要爬取的网站,并提取HTML

我在这举个例子,大家就能看懂了。

  1. 爬取某区块链资讯网站

图片

在网页上按F12进入开发者调试模式

利用HTML选择器,找到这块的HTML

图片

那在这里可以看到,article标签就是我们要找的这一类的HTML

如果要优化的话,可以更深层次的往下去找,

例如这个div,每个article标签下都存在于这样的DIV,那么事情就简单了

图片

鼠标放在刚才的div上,右键,编辑为html

图片

把里面的东西全复制出来,类似于这样的结构

图片

原封不动的,去找AI,我是这样问的

于是乎,AI就生成了一个爬虫的原型,对于不同的网站来说,HTML结构不同,但是AI也能处理的非常好。

如果它生成的脚本不对,你还可以把python内报错的信息发给他,他会重新给你生成一遍,一般来说,3次左右,就能生成一个完整无缺的,针对于你指定网站,指定内容的网站脚本。

图片

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

加密社

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值