.net从某些页面爬取数据_不用学Python，这款Chrome插件小白也能爬取数据

最新推荐文章于 2023-03-27 16:21:54 发布

薄荷味糖豆

最新推荐文章于 2023-03-27 16:21:54 发布

阅读量343

点赞数

文章标签： .net从某些页面爬取数据

本文链接：https://blog.csdn.net/weixin_32101377/article/details/112109250

版权

本文以爬取网站小说列表为例，介绍了如何借助Chrome插件进行.NET网页数据抓取。教程分为三步：新建SiteMap以定义爬取结构，设定elements的抓取范围，并在相同元素中定义不同id，实现小白也能上手的数据爬取。

摘要由CSDN通过智能技术生成

在工作和生活中，我们收到从网页上摘取数据的需求，比如需要统计电商网站上不同产品的价格、销量等等。如果是手工复制粘贴就比较麻烦。但是，如果使用Python或是其他脚本语言来爬取数据需要使用很专业的编程知识，学习HTML、BeautifulSoup、request等等又苦又累，一不小心还会秃头！ 有没有办法可以让我们简单地爬取数据而不用去学这些复杂的编程语言呢？ 今天小趣就给大家带来一种方法，通过一个叫做Web scraper的Chrome扩展器，三分钟不到就能学会爬取数据！

以爬取网站小说列表为例

我们首先在Chrome浏览器安装一个Web scraper插件，安装后按下f12或如图所示，打开开发者工具，并开发者工具调整到页面的下方，就可以开始爬取了。

什么是elements？

开始爬取之前，先跟大家讲讲什么是elements！一般来说，网站上的数据会分装在不同的项目中，我们称之为elements。相同的element里面包含的数据类型也是相同的。我们给网站爬虫指定好需要爬取的elements以及定位出每个元素内部需要爬取的数据标签，爬虫就会自动爬取这个页面上所有的elements，将带有相同数据标签的文本、图片、链接等等存在文件中。

三步配置爬虫

1)新建SiteMap

了解了elements，现在开始配置爬虫。如图所示，打开网页后，选中最后一个选项卡，选择创建一个网站地图(SiteMap)。给这个地图起一个名字，把需要爬取数据的链接复制进地址栏，然后点击创建地图。

2)定义elements爬取范围

之后我们要定义element主要是有哪些范围，我们给他起个名字，叫做box，然后类型选择elements。把mulitiple多选框打开，点击select，然后选中页面上的两个相邻的elements，让插件知道我们要爬取的容器的类型，以及elements是从哪里开始。之后，点击页面上的Done Slecting按钮，结束选择并保存这个筛选器。