数据分析——Python网络爬虫(三){爬虫基本原理}

樊鴻燁

于 2024-07-12 17:26:31 发布

阅读量260

点赞数 2

文章标签：数据分析 python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43524475/article/details/118096759

版权

爬虫基本原理

爬虫基本流程
拉取什么数据
JavaScript渲染页面
cookies
爬虫代理
检查robots.txt
爬虫的攻与防

爬虫基本流程

• 获取网页源代码：通过库来实现，urllib，requests等实现http请求
• 提取信息：分析网页源代码，提取数据，如正则表达式，beautiful soup，pyquery，lxml等
• 保存数据：保存为txt，json或数据库

拉取什么数据

• Html代码
• Json字符串（api接口，手机端大部分是这种数据格式）
• 二进制文件（图片，音频，视频等）
• 各种扩展名的文件：css，JavaScript，各种配置文件等

JavaScript渲染页面

• 用urllib或requests抓取网页时，得到的源代码和浏览器中看到的不一样
• 越来越多的网页采用ajax、前端模块化工具来构建，整个网页都JavaScript渲染出来的
• 需要分析ajax接口，或使用selenium等库实现模拟JavaScript渲染
• 页面渲染

cookies

• cookies在浏览器端，在访问动态网页时候浏览器会自动附带上它发送给服务器，服务器通过识别cookies并鉴定其是哪个用户，判断其是否登录状态，然后返回对应的响应
• cookies

爬虫代理

• 代理网络用户去取得网络信息
代理的作用：突破自身IP访问限制，访问团体内部资源，提高访问速度，隐藏真实IP
• 爬虫代理可以获得较好的爬取效果（防止被封禁或输入验证码登录）

检查robots.txt

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取
当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面

豆瓣的robots.txt

爬虫的攻与防

在这里插入图片描述

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据分析——Python网络爬虫(三){爬虫基本原理}

爬虫基本原理爬虫基本流程拉取什么数据JavaScript渲染页面cookies爬虫代理检查robots.txt爬虫的攻与防爬虫基本流程 • 获取网页源代码：通过库来实现，urllib，requests等实现http请求 • 提取信息：分析网页源代码，提取数据，如正则表达式，beautiful soup，pyquery，lxml等 • 保存数据：保存为txt，json或数据库拉取什么数据 • Html代码 • Json字符串（api接口，手机端大部分是这种数据格式）
复制链接

扫一扫

樊鴻燁 CSDN认证博客专家 CSDN认证企业博客

码龄6年

43: 原创

9万+: 周排名

167万+: 总排名

5万+: 访问

: 等级

648: 积分

145: 粉丝

157: 获赞

36: 评论

582: 收藏

私信

关注

热门文章

分类专栏

最新评论

粒子群PSO优化算法Matlab代码详解
m0_49106193: 请问一下，运行时说未定义函数或变量 'fun'，应该怎么办
Python-Pandas{描述与统计功能}
明63: 使用pyecharts库实现支付宝月账单可视化。现有支付宝某月的账单数据，如下: 购物人情往来餐饮美食通信物流生活日用交通出行休闲娱乐其他明 800 100 1000 | 200 300 200 200 (1)安装pyecharts库 (2)绘制Page类型的组合图表。 (3)先根据数据绘制折线图 (4)再根据数据绘制漏斗图 (5)要求图表有标题、图例、X轴、y轴名称。
Python-Pandas{描述与统计功能}
明63: 安装pyecharts库 pip install pyecharts 先根据数据绘制折线图 from pyecharts.charts import Line from pyecharts import options as opts # 初始化图表 line = Line() # 添加数据 line.add_xaxis(["购物", "人情往来", "餐饮美食", "通信物流", "生活日用", "交通出行", "休闲娱乐", "其他"]) line.add_yaxis("金额", [800, 100, 1000, 200, 300, 200, 200, 200]) # 设置图表标题、图例、x轴、y轴名称 line.set_global_opts( title_opts=opts.TitleOpts(title="支付宝月账单可视化"), legend_opts=opts.LegendOpts(is_show=True), xaxis_opts=opts.AxisOpts(name="类别", name_textstyle_opts=opts.NameTextStyleOpts(color="red")), yaxis_opts=opts.AxisOpts(name="金额", name_textstyle_opts=opts.NameTextStyleOpts(color="blue")), ) # 渲染图表 line.render("折线图.html") 再根据数据绘制漏斗图 from pyecharts.charts import Funnel from pyecharts import options as opts # 初始化图表 funnel = Funnel() # 添加数据 funnel.add_schema( schema=[ opts.FunnelItem(name="购物", value=800), opts.FunnelItem(name="人情往来", value=100), opts.FunnelItem(name="餐饮美食", value=1000), opts.FunnelItem(name="通信物流", value=200), opts.FunnelItem(name="生活日用", value=300), opts.FunnelItem(name="交通出行", value=200), opts.FunnelItem(name="休闲娱乐", value=200), opts.FunnelItem(name="其他", value=200), ] ) # 设置图表标题、图例、x轴、y轴名称 funnel.set_global_opts( title_opts=opts.TitleOpts(title="支付宝月账单可视化"), legend_opts=opts.LegendOpts(is_show=True), xaxis_opts=opts.AxisOpts(name="类别", name_textstyle_opts=opts.NameTextStyleOpts(color="red")), yaxis_opts=opts.AxisOpts(name="金额", name_textstyle_opts=opts.NameTextStyleOpts(color="blue")), ) # 渲染图表 funnel.render("漏斗图.html") 绘制Page类的组合图表 from pyecharts import Page from pyecharts.charts import Line, Funnel from pyecharts.faker import Faker from pyecharts.options import Opts page = Page() # 添加折线图 line_chart = ( Line() .add_xaxis(Faker.choose()) .add_yaxis("系列1", Faker.values()) .set_global_opts(title_opts=Opts.TitleOpts(title="折线图")) ) # 添加漏斗图 funnel_chart = ( Funnel() .add_schema( [ Opts.FunnelItem(name=Faker.choose(), value=Faker.values()) for _ in range(10) ] ) .set_global_opts(title_opts=Opts.TitleOpts(title="漏斗图")) ) page.add(line_chart, "折线图") page.add(funnel_chart, "漏斗图") page.render("combined_chart.html")
Python-Pandas{描述与统计功能}
明63: 使用matplotllb库实现2017年与52018年抖音用户分析可视化。现统计了2017年3-5月与2018年3-5月音用户地区分布比和人群增长倍数如表所示。根据表中数据: ①分别使用4个子图进行显示; ②在第1行第1列的区域中绘制说明2018年相比于2017年人群增长倍数的柱形图:❸在第1行第2列的区域中绘制说明201 8年相比于2017年人群增长倍数的柱形图:④在第2行第 1列的区域中，绘制说明2017 年抖音用户地区分布比例的讲图:⑤在第2行第2列的区城中，绘制说明2018年抖音用户地区分布比例的饼图:
Python-Pandas{描述与统计功能}
明63: 使用pandas进行数据清洗和统计分析现有某高校2023年的入学成绩，如下: student-grade.csv 完成如下操作: (1)使用pandas读取文件保存成DataFrame对象，并展示前10行数据。 (2)进行数据清洗，对读取的数据进行空值检测，并删除含有空值的行。 (3)新增一列为“"sum", 根据chinese、math、english和Integration四科成绩，求出入学总成绩。(4)统计语文科目和总分的最大值、最小值以及平均值

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。