媳妇儿去练车了,我电话里问:“你什么时候回来?”
她答:“不一定,怎么了?”
我说:“回来给你准备好吃的啊”
其实内心活动是这样的:“回来给我带好吃的啊~_~”
原文连接:http://blog.csdn.net/tomorrow13210073213/article/category/6931287
磨刀不误砍柴工-网页分割
下面是某个用的主页截图,鉴于保护隐私的考虑,我遮挡了部分信息;下面我简单分析一下这个页面,看我们能获取到什么信息;我用编号1,2,3,4…对网页内容作了标记;
“1”:用户头像
基本上,保存链接就好了;
“2”:用户昵称
不必多言;
“3”:用户标签
应该是用户后台自定义的一些标签属性,可能包括用户所在领域,职位,地区,性别,出生日期等信息;由于内容不确定,个数不确定,最好拆开,与用户形成一对多的关系;
“4”:用户描述
用户后台定义的对自己的描述信息,比较个性化,与用户基本上是一对一的关系;
“5”:用户各模块等级
包括博客,下载,问答,代码等,很明显一对多;
“6”:用户勋章
同“5”
“7”:用户关系
用户关注数量,粉丝数量,一对一;
“8”:用户熟悉领域
图中没有体现出数据,但明显是一对多关系;
“9”:专业技能
一对多;
“10”:教育经历
一对多;
“11”:工作经历
一对多;
“12”:联系方式
一对多;
“13”:用户关系
这一部分就比较有趣了;由于我们的爬取没有很强的目的性(不针对特定用户),所以,这一部分可以帮我们实现数据自增长;也就是,我们可以将这部分数据保存起来,作为待抓取的新数据,从而实现数据自增长;
用户ID
其实还有一个隐藏信息,用户ID;可以从连接里提取;
以上就是整个网页可能对我们有用的信息,再进一步就是对网页源码以及各请求进行分析了,下篇继续。
以上内容仅供练习,学习使用;