一.粉丝性别
两个地方要注意:
1. 翻页,由于查看粉丝数限制,如果一直点下一页,会卡在第5页或者第10页,最后数据无法保存。所以还是在url里写上页数范围,这样最后数据可以保存:比如第一页网址:是 weibo.com/p/1005056932774899/follow?relate=fans&page=1#Pl_Official_HisRelation__59, 那直接改为page=[1-5],就可以访问前五页了。
2.过滤性别。性别图标不是text也不是image, 我想的办法是提取那一整行html,然后regex f*e*male,这样就能提取male或者female,如下图:
二.微博内容:
1.翻页继续选择上述方法
2.展开全文的爬取:
先element scroll 滚到底:
然后直接提