Python 边做边学 3 网页分析

最新推荐文章于 2020-11-30 05:28:53 发布

lufaxinT

最新推荐文章于 2020-11-30 05:28:53 发布

阅读量455

点赞数

分类专栏： python python爬虫 Python 边做边学文章标签： python python爬虫数据采集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tomorrow13210073213/article/details/72565973

版权

python 同时被 3 个专栏收录

25 篇文章 0 订阅

订阅专栏

25 篇文章 0 订阅

订阅专栏

Python 边做边学

25 篇文章 4 订阅

订阅专栏

媳妇儿去练车了，我电话里问：“你什么时候回来？”
她答：“不一定，怎么了？”
我说：“回来给你准备好吃的啊”
其实内心活动是这样的：“回来给我带好吃的啊~_~”

原文连接：http://blog.csdn.net/tomorrow13210073213/article/category/6931287

磨刀不误砍柴工-网页分割

下面是某个用的主页截图，鉴于保护隐私的考虑，我遮挡了部分信息；下面我简单分析一下这个页面，看我们能获取到什么信息；我用编号1,2,3,4…对网页内容作了标记；

这里写图片描述

“1”：用户头像

基本上，保存链接就好了；

“2”：用户昵称

不必多言；

“3”：用户标签

应该是用户后台自定义的一些标签属性，可能包括用户所在领域，职位，地区，性别，出生日期等信息；由于内容不确定，个数不确定，最好拆开，与用户形成一对多的关系；

“4”：用户描述

用户后台定义的对自己的描述信息，比较个性化，与用户基本上是一对一的关系；

“5”：用户各模块等级

包括博客，下载，问答，代码等，很明显一对多；

“6”：用户勋章

同“5”

“7”：用户关系

用户关注数量，粉丝数量，一对一;

“8”：用户熟悉领域

图中没有体现出数据，但明显是一对多关系；

“9”：专业技能

一对多；

“10”：教育经历

一对多；

“11”：工作经历

一对多；

“12”：联系方式

一对多；

“13”：用户关系

这一部分就比较有趣了；由于我们的爬取没有很强的目的性（不针对特定用户），所以，这一部分可以帮我们实现数据自增长；也就是，我们可以将这部分数据保存起来，作为待抓取的新数据，从而实现数据自增长；

用户ID

其实还有一个隐藏信息，用户ID；可以从连接里提取；

以上就是整个网页可能对我们有用的信息，再进一步就是对网页源码以及各请求进行分析了，下篇继续。

以上内容仅供练习，学习使用；

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 边做边学 3 网页分析

简单分析一下这个页面，看我们能获取到什么信息；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。