一、分析贴吧网页源码结构
直接打开源代码,太乱了。无从下手,那就从开发者工具找一下。
我想获取每个帖子的标题、回复数、时间和链接(可能的话以后会尝试自动保存帖子当前页的截图)
先选中帖子的模块吧~
在chrome中,ctrl+shift+i就可以打开。
选中elements的选项。
接下来的操作就很简单了,只要将鼠标移到代码上,其所指示的位置就会标出。
一步一步,得出了我想找的一个帖子所对应的代码,以第一个非置顶帖为例:
不难看出,我们想要的帖子在这个html文件的body/div class="wrap1"/div class="wrap2"/...content/....../j_thread_list下
上面是置顶帖,下面紧挨着的,自然是下一个帖子。
我们发现每一个帖子在贴吧首页的信息都是存放在一个单独的<li>标签下的,右键,导出为html,然后我们就可以在别的文本编辑器里粘贴这部分的内容。
粘贴结果如下:
<li class=" j_thread_list clearfix" data-field="{"id":5935765954,"author_name":"zero2crayon","author_nickname":"\ud83c\udf6dzero\ud83c\udf7c","author_portrait":"8ffe7a65726f32637261796f6ef3a4","first_post_id":122696355566,"reply_num":6,"is_bakan":null,"vid":"","is_good":null,"is_top":null,"is_protal":null,"is_membertop":null,"is_multi_forum":null,"frs_tpoint":null}">
<div class="t_con cleafix">
<div class="col2_left j_threadlist_li_left">
<span class="threadlist_rep_num center_text" title="回复">6</span>
</div>
<div class="col2_right j_threadlist_li_right ">