网站的数据是如何收集和分析的？

Elseide艾思

于 2024-01-03 18:41:00 发布

阅读量594

点赞数 8

文章标签：大数据 python 网络爬虫数据分析聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38798635/article/details/135366718

版权

数据采集的方法：

1、API

API又叫应用程序接口，是网站的管理者为了使用者方便，编写的一种程序接口。该类接口可以屏蔽网站底层复杂算法仅仅通过简单的调用即可实现对数据请求的功能。目前主流的社交媒体，比如微博、贴吧等均可提供接口服务，可以在其官网开放平台获取相关demo。但是api技术毕竟受限于平台开发者，为了减少网站的负荷，一般都会对每天接口调用设有限制，会有一定不便之处。

2、爬虫

网络爬虫是通常会采用的方式。网络爬虫是按照一定的规则，自动抓取信息的程序或者脚本。最常见的爬虫就是我们常常使用的搜索引擎，像百度、360等。此类爬虫称为通用型爬虫，对所有的网页进行无条件采集。

给定爬虫初始url，爬虫将网页中所需提取的信息资源进行提取并保存，同时提取网站中存在的其他网站链接，经过发送请求，接收网站响应以及再次解析页面，提取所需资源并保存，再将网页中所需资源进行提取。实现过程并不复杂，因为爬虫在数据采集方面运用的也是比较多的。

3、手动输入

人工手动输入数据，适用于数据量较小、频次较低，且无法自动获取的情况。

4.文件导入

通过文件（如Excel、CSV）导入数据，适用于已有数据保存在文件中的情况。

数据分析：

数据搜集到后，需要进行深入分析和挖掘，提取出其中有价值的信息。

1.描述性分析。通过描述性统计方法，比如平均数、中位数、众数等，了解数据的分布情况、集中趋势和离散程度。可以借助这几组数据了解数据的特点。

2.在前面的基础上，可以进一步探索内在的联系，这时需要通过相关性分析或者回归分析等，探究数据之间的关系。

3.如果需要对未来趋势进行预测，需要通过机器学习算法，预测用户的行为或偏好。

4.分类和聚类算法，就是将用户或数据集进行分组。这样能更好的了解数据的特点或者群体的需求问题。

关注

8
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
网站的数据是如何收集和分析的？

爬虫将网页中所需提取的信息资源进行提取并保存，同时提取网站中存在的其他网站链接，经过发送请求，接收网站响应以及再次解析页面，提取所需资源并保存，再将网页中所需资源进行提取。，是网站的管理者为了使用者方便，编写的一种程序接口。毕竟受限于平台开发者，为了减少网站的负荷，一般都会对每天接口调用设有限制，会有一定不便之处。3.如果需要对未来趋势进行预测，需要通过机器学习算法，预测用户的行为或偏好。这样能更好的了解数据的特点或者群体的需求问题。数据搜集到后，需要进行深入分析和挖掘，提取出其中有价值的信息。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。