python爬虫xpath针对json代码的分析方法

本文学会使用多进程爬取的map方法,json提取页面内容方法,xpath解析页面的方法:

http://tieba.baidu.com/p/3522395718?pn=1

页面代码:

<div class="l_post j_l_post l_post_bright  " data-field="{&quot;author&quot;:{&quot;user_id&quot;:503570759,&quot;user_name&quot;:&quot;\u9893\u5e9f\u4e86\u8c01\u7684\u6e05\u7eaf&quot;,&quot;name_u&quot;:&quot;%E9%A2%93%E5%BA%9F%E4%BA%86%E8%B0%81%E7%9A%84%E6%B8%85%E7%BA%AF&amp;ie=utf-8&quot;,&quot;user_sex&quot;:2,&quot;portrait&quot;:&quot;47e1e9a293e5ba9fe4ba86e8b081e79a84e6b885e7baaf031e&quot;,&quot;is_like&quot;:1,&quot;level_id&quot;:14,&quot;level_name&quot;:&quot;\u4f20\u5947\u679c\u7c89&quot;,&quot;cur_score&quot;:20947,&quot;bawu&quot;:0,&quot;props&quot;:null},&quot;content&quot;:{&quot;post_id&quot;:62866847607,&quot;is_anonym&quot;:false,&quot;open_id&quot;:&quot;tbclient&quot;,&quot;open_type&quot;:&quot;apple&quot;,&quot;date&quot;:&quot;2015-01-11 16:39&quot;,&quot;vote_crypt&quot;:&quot;&quot;,&quot;post_no&quot;:6,&quot;type&quot;:&quot;0&quot;,&quot;comment_num&quot;:123,&quot;ptype&quot;:&quot;0&quot;,&quot;is_saveface&quot;:false,&quot;props&quot;:null,&quot;post_index&quot;:4,&quot;pb_tpoint&quot;:null}}">         


编程代码:

def spider(url):
    html = requests.get(url)
    selector = etree.HTML(html.text)
    content_field = selector.xpath('//div[@class=&#
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值