新浪爬虫微博个人地址公司等信息抽取正则表达式

项目地址:https://github.com/CreditTone/resources    


新浪把用户信息生成js。然后动态执行js生成html。所以大家看到为什么在html标签里面找不到信息。大家用下面的正则对静态页面抽取就可以了。



      抽取微博数:>(\d+)<\\/strong><span class=\\"S_txt2\\">微博


       抽取地址:<em class=\\"W_ficon ficon_cd_place S_ficon\\">2<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([^\\rnt\s]+[ ]{0,1}[^\\rnt\s]+)[\\rnt\s]+<\\/span>

     

     抽取公司:<span class=\\"S_txt2\\">公司<\\/span>[\\rnt\s]+<a target=\\"_blank\\" href=[^>]+>([^<>]+)<\\/a>


     抽取生日:class=\\"item_ico W_fl\\"><em class=\\"W_ficon ficon_constellation S_ficon\\">ö<\\/em><\\/span>[\\rnt\s]+<span class=\\"item_text W_fl\\">[\\rnt\s]+([\d]{4}年[\d]{1,2}月[\d]{1,2}日)


    抽取学校:<span class=\\"S_txt2\\">毕业于<\\/span>[\\rnt\s]+<a[^>]+>([^<]+)<\\/a>


     抽取个性签名:<div class=\\"pf_intro\\" title=\\"[  ]*([^"]+)\\">


     抽取粉丝数:>(\d+)<\\/strong><span class=\\"S_txt2\\">粉丝


    抽取新浪id:url=\%2F(\d+)&bottomnav=\d+&wvr=\d+',



由于java语言字符串本身对反斜杠要转义,所以java正则写法与上述有些不同。在这里提供了项目地址。大家download下来后参考下。






  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值