爬虫
文章平均质量分 95
初学Python的快乐
苍夜月明
又是努力变成大佬的一天
展开
-
Python写网络爬虫(三)
之前说的都是通用爬虫,只能爬取整张页面的数据,而对于细枝末节却无能为力,不能爬页面中某一个区域的数据。 举个例子: 这是上次获得的企业数据,但我只想要文字内容,去掉看不懂的英文,这该怎么做呢? 为了解决这一问题,今天又要介绍另一种爬虫类别了 —— 聚焦爬虫。 (小声bb,这需要HTML基础) 聚焦爬虫: 建立在通用爬虫的基础之上,抓取页面中指定的局部内容。 说到聚焦爬虫,就不得不提到实现聚焦爬虫的方法—数据解析。 数据解析分类: ——正则 ——bs4 ——xpath(通用性强,其他语言和原创 2022-03-24 16:28:23 · 1951 阅读 · 3 评论 -
Python写网络爬虫(一)
首先,在学习网络爬虫之前,需要先了解它是什么! 网络爬虫简介 网络爬虫:web crawler(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 上面这些都是百度百科晦涩难懂的官话,用我们自己的话来说, 爬虫就是:通过我们自己编写的程序,模拟浏览器上网,然后让其去互联网抓取我们想要的数据的过程。 爬虫在使用场景中的分类..................原创 2022-03-17 00:41:32 · 7325 阅读 · 12 评论