.net从某些页面爬取数据_不用学Python,这款Chrome插件小白也能爬取数据

本文以爬取网站小说列表为例,介绍了如何借助Chrome插件进行.NET网页数据抓取。教程分为三步:新建SiteMap以定义爬取结构,设定elements的抓取范围,并在相同元素中定义不同id,实现小白也能上手的数据爬取。
摘要由CSDN通过智能技术生成
7f2ed854a09b413c8ee6c36e7689f706.png 在工作和生活中,我们收到从网页上摘取数据的需求,比如需要统计电商网站上不同产品的价格、销量等等。如果是手工复制粘贴就比较麻烦。 但是,如果使用Python或是其他脚本语言来爬取数据需要使用很专业的编程知识,学习HTML、BeautifulSoup、request等等又苦又累,一不小心还会秃头! 有没有办法可以让我们简单地爬取数据而不用去学这些复杂的编程语言呢? 今天小趣就给大家带来一种方法,通过一个叫做Web scraper的Chrome扩展器,三分钟不到就能学会爬取数据! e54b0e09b2ff1bcb7b16f7237f66586e.png

以爬取网站小说列表为例

我们首先在Chrome浏览器安装一个Web scraper插件,安装后按下f12或如图所示,打开开发者工具,并开发者工具调整到页面的下方,就可以开始爬取了。 87b87a8e6cb47dcec28c463bc0b59fcf.png

什么是elements?

开始爬取之前,先跟大家讲讲什么是elements!一般来说,网站上的数据会分装在不同的项目中,我们称之为elements。相同的element里面包含的数据类型也是相同的。 我们给网站爬虫指定好需要爬取的elements以及定位出每个元素内部需要爬取的数据标签,爬虫就会自动爬取这个页面上所有的elements,将带有相同数据标签的文本、图片、链接等等存在文件中。

三步配置爬虫

1)新建SiteMap

了解了elements,现在开始配置爬虫。如图所示,打开网页后,选中最后一个选项卡,选择创建一个网站地图(SiteMap)。给这个地图起一个名字,把需要爬取数据的链接复制进地址栏,然后点击创建地图。 5683058c13432a5a2e2ec7f415677d69.png

2)定义elements爬取范围

之后我们要定义element主要是有哪些范围,我们给他起个名字,叫做box,然后类型选择elements。把mulitiple多选框打开,点击select,然后选中页面上的两个相邻的elements,让插件知道我们要爬取的容器的类型,以及elements是从哪里开始。之后,点击页面上的Done Slecting按钮,结束选择并保存这个筛选器。 d5f0741ed0d7356e946e3b12a2bdc527.png

3)相同elements里面定义不同的id

我们进入root界面,看到我们刚才已经写好的box筛选器,点击进入二级菜单。然后在筛选器内新建一个新的二级筛选器。这里可以看到我们的elements已经被框成一个黄颜色的窗格,说明我们是在box里面进行筛选。 5de0eed8983936a35d936ea9aec15737.png 然后我们就像之前建立box筛选器一样,分别建立书名、作者、价格和评论数的筛选器。注意Type这里我们需要选择text,而不是elements类型了。这样的话我们的这个文字才会被输出到文件中,然后同样的点击Done select,把这个筛选器保存好。

开始爬取数据

如图,我们已经建立了标题、作者、价格、和评论数4个筛选器,然后回到Box层级下,点击第2个SiteMap amazon-book选项卡,选择Scrape按钮进行爬取操作。然后这个时候,插件就会自动打开一个小窗口开始爬取。接下来我们就可以看见我们的数据,已经被保存到文件中。 c5d6dcf3a053ab511b55b386ddda3f65.png 打开文件就可以看到数据已经完完全全被抓下来了。怎么样,三分钟不到就学会爬取数据是不是成就感爆棚呢?! ca562baa8a778f883050d4281f067d16.png 除了爬取单页的内容,如果进行相应的设置还可以对多个页面或者是二级菜单进行爬取,具体详情可以点击插件上的视频教程按钮来跟着视频教程一起学习。 或私信@趣玩好工具【爬虫】获取Web Scraper视频教程,因为篇幅的原因就不在这里赘述了。 以上就是小趣本次的教程了,希望你能喜欢! f6d7385d53c676875f26b1a1406b5de7.png 其他值得推荐的App dce9f63be41f4e5c1bdad58044af69fa.png 5b3043b34b728bc0f2ee901a2aaece29.png 4adb55b35e7f56ca0ad769f765a7ace9.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值