![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python爬虫入门
文章平均质量分 64
https://www.bilibili.com/video/BV1464y1c7Eq?p=1
beyond谚语
你只管努力,剩下的交给天意。
展开
-
一、爬虫基本概念
通过编写程序,模拟浏览器上网,让其去互联网上抓取数据的过程。①通用爬虫抓取系统重要的组成部分,抓取的是一整张页面的数据②聚焦爬虫建立在通用爬虫的基础之上,抓取页面中特定的局部区域内容③增量式爬虫检测网站中数据更新的情况,只会抓取网站中最新更新出来的数据。......原创 2022-08-02 17:02:19 · 1096 阅读 · 0 评论 -
三、实战---爬取百度指定词条所对应的结果页面(一个简单的页面采集器)
在中也提及到User-Agent,表示请求载体的身份,也就是说明通过什么浏览器进行访问服务器的,这一点很重要。原创 2022-08-03 22:12:20 · 1470 阅读 · 2 评论 -
爬虫项目(四)---采集从01月22日以来全国各省疫情数据
采集从03月02日以来全国各省疫情数据当然,数据来源仍然是丁香园新型冠状病毒肺炎疫情实时动态首页url:https://ncov.dxy.cn/ncovh5/view/pneumonia分析确定01月22日以来全国各省疫情数据的URL由项目(三)可以获取全国各省疫情数据点击可下载:https://file1.dxycdn.com/2020/0223/331/3398299755968040033-135.json思路1,采集从01月23日以来全国各省疫情数据加载最近一日全国疫情信息遍翻译 2022-02-26 11:42:31 · 498 阅读 · 0 评论 -
爬虫项目(三)---采集最近一日全国各省疫情数据
该内容出自黑马程序员教程采集最近一日全国各省疫情数据当然,数据来源仍然是丁香园新型冠状病毒肺炎疫情实时动态首页url:https://ncov.dxy.cn/ncovh5/view/pneumonia思路:首先需要先确定全国各省疫情数据的位置全国各省份的疫情数据信息都在id="getAreaStat"步骤:发送请求,获取疫情首页内容解析疫情首页内容,获取最近一日各省疫情信息以json格式保存疫情信息import requestsimport reimport jsonfrom翻译 2022-02-22 22:42:33 · 735 阅读 · 0 评论 -
爬虫项目(二)---采集从03月02号以来的世界各国疫情数据
采集从03月02号以来的世界各国疫情数据翻译 2022-02-22 22:10:25 · 353 阅读 · 0 评论 -
爬虫项目(一)---采集最近一日世界各国的疫情数据信息
采集最近一日世界各国的疫情数据信息翻译 2022-02-21 19:15:31 · 370 阅读 · 0 评论 -
五、json模块
一、json模块的介绍json模块是Python自带的模块,用于json和Python数据之间的相互转换Json与Python数据类型的对应关系JsonPythonobjectdictarrayliststringstrnumber(int)int,longnumber(real)floattrueTruefalseFalsenullNone[#中括号括起来的,对应与Json中的array数组,在python中为lis原创 2022-02-21 18:08:59 · 993 阅读 · 0 评论 -
三、Beautiful Soup解析库
一、Beautiful Soup介绍与安装1,Beautiful Soup介绍答:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库2,Beautiful Soup安装答:安装Beautiful Soup 4:pip install bs4安装lxml:pip install lxml二、Beautiful Soup对象介绍与创建1,Beautiful Soup对象介绍答:Beautiful Soup对象代表要解析整个文档树,支持遍历文档树和搜索文档树中描原创 2022-02-21 14:45:00 · 820 阅读 · 0 评论 -
二、request请求库
一、requests介绍与安装1,requests介绍答:requests是一个优雅且简单的Python HTTP请求库2,requests作用答:requests的作用是发送请求获取响应数据3,requests安装答:pip install requests二、requests基本使用1,requests使用三部曲导入模块发送get请求,获取响应从响应中获取数据response常见属性描述response = requests.get(‘url’)发送ge原创 2022-02-21 13:11:22 · 598 阅读 · 0 评论 -
四、正则表达式
一、正则表达式的概念和作用正则表达式概念:一种字符串匹配的模式正则表达式作用:可以检查一个字符串中是否包含某种字串替换匹配的字串提取某个字符串中匹配的字串二、正则表达式中常见的语法字符描述原样字符匹配字符一般字符匹配自身beyondbeyond.匹配任意除换行符\n以外的字符a.caac或abc或acc\转义字符,使后一个字符改变原来的意思。如果字符串中有字符*需要匹配,可以使用\*或者字符集[*]a\.c、a\\ca.c、a\c原创 2022-02-21 17:08:37 · 424 阅读 · 0 评论 -
一、网络爬虫概述
1,浏览器与网络爬虫的区别答:对于浏览器而言:浏览器打开一个网站,会对网站服务器发送一个request请求,服务器收到该请求之后,会给浏览器一个respond响应,该响应携带很多数据,之后浏览器收到这些数据进行渲染,最终形成可视化的页面效果。对于网络爬虫而言:和浏览器几乎一样,唯一不同的地方在于,网络爬虫只会获取这些数据,并不会进行像浏览器那样进行渲染,不会形成一种可视化的效果而已。当让,获取这些数据已经够用了,然后通过一些正则表达式对这些数据进行有用的提取即可。通俗而言:浏览器–展示数据;网络爬虫原创 2022-02-20 18:11:08 · 677 阅读 · 0 评论