爬虫
文章平均质量分 94
是苹果没错了
世界上只有一种英雄主义,就是看清生活的真相之后依然热爱生活。
展开
-
Python爬虫系列2(百度贴吧案例,猫眼电影案例,正则匹配)
贴吧案例 今天我们来爬取一下百度贴吧的数据, 主要步骤为以下五步 1.查看页面是否为静态页面 2.找到url规律 3.获取网页内容 4提取所需数据 5.保存(数据库、本地) 查看是否为静态页面 在这里提一点,目前我们抓取的数据都是静态页面的,所有第一件事就是要确认你所抓取的页面是否为静态 的,这点你可以通过查看网页源代码查看,你可以找到 这是贴吧的页面 这是源代码 通过上图对比我们可以看到,像我们看到的一些标题之类的在源代码中都有体现,我们可以进行抓取 下面我们再来看一个动态加载的页面![ 这是腾讯招聘原创 2021-02-27 21:51:23 · 934 阅读 · 3 评论 -
Python爬虫系列1(入门超详细)
网络爬虫概述 此章节是关于爬虫的一些基础知识,可以仔细阅读实操一下,为之后打下基础 学习爬虫,首先我们要了解爬虫是什么 定义 网络蜘蛛、网络机器人、爬取网络的数据的程序 其实Python爬虫就是模仿人点击浏览器并访问,而且模仿的越像越好,让web站点无法发现你是不是人。 话不多说 我们直接开始操作 首先,我们先开始一个最简单的网络爬虫,学习该爬虫,首先你要有一定的编程基础,如果没有一些编程基础的话,对于一些概念的理解可能有点难,我所使用的工具是 pycharm和Python3.7,关于这两样的安装我就不一一原创 2021-02-24 17:09:49 · 9589 阅读 · 6 评论