Python 边做边学 3 网页分析

媳妇儿去练车了,我电话里问:“你什么时候回来?”
她答:“不一定,怎么了?”
我说:“回来给你准备好吃的啊”
其实内心活动是这样的:“回来给我带好吃的啊~_~”

原文连接:http://blog.csdn.net/tomorrow13210073213/article/category/6931287

磨刀不误砍柴工-网页分割

下面是某个用的主页截图,鉴于保护隐私的考虑,我遮挡了部分信息;下面我简单分析一下这个页面,看我们能获取到什么信息;我用编号1,2,3,4…对网页内容作了标记;

这里写图片描述

“1”:用户头像

基本上,保存链接就好了;

“2”:用户昵称

不必多言;

“3”:用户标签

应该是用户后台自定义的一些标签属性,可能包括用户所在领域,职位,地区,性别,出生日期等信息;由于内容不确定,个数不确定,最好拆开,与用户形成一对多的关系;

“4”:用户描述

用户后台定义的对自己的描述信息,比较个性化,与用户基本上是一对一的关系;

“5”:用户各模块等级

包括博客,下载,问答,代码等,很明显一对多;

“6”:用户勋章

同“5”

“7”:用户关系

用户关注数量,粉丝数量,一对一;

“8”:用户熟悉领域

图中没有体现出数据,但明显是一对多关系;

“9”:专业技能

一对多;

“10”:教育经历

一对多;

“11”:工作经历

一对多;

“12”:联系方式

一对多;

“13”:用户关系

这一部分就比较有趣了;由于我们的爬取没有很强的目的性(不针对特定用户),所以,这一部分可以帮我们实现数据自增长;也就是,我们可以将这部分数据保存起来,作为待抓取的新数据,从而实现数据自增长;

用户ID

其实还有一个隐藏信息,用户ID;可以从连接里提取;

以上就是整个网页可能对我们有用的信息,再进一步就是对网页源码以及各请求进行分析了,下篇继续。

以上内容仅供练习,学习使用;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值