错误记录:贴吧爬取

原创 2012年03月26日 10:35:38

1:为什么匹配不出url链接:找到原因了,不是正则表达式的问题原来从浏览器里贴出了的源代码和调用java包返回的源代码不同(原因不明)如下

浏览器:

<tbody id="normalthread_14777">
<tr>
<td class="icn">
<a href="thread-14777-1-1.html" title="新窗口打开" target="_blank">
<img src="static/image/common/folder_common.gif" />
</a>
</td>
<th class="common">
 <a href="thread-14777-1-1.html" style="font-weight: bold;color: #2B65B7" onclick="atarget(this)" class="xst" >青岛5所高中要搬迁,19中搬迁鳌山卫,配套山大青岛校区</a>
</th>
<td class="by">
<cite>
<a href="home.php?mod=space&amp;uid=3324" c="1">number11</a></cite>
<em><span>2012-2-29</span></em>
</td>
<td class="num"><a href="thread-14777-1-1.html" class="xi2">6</a><em>657</em></td>
<td class="by">
<cite><a href="home.php?mod=space&username=%E5%8D%81%E5%85%AD%E7%9A%84%E6%9C%88%E4%BA%AE" c="1">十六的月亮</a></cite>
<em><a href="forum.php?mod=redirect&tid=14777&goto=lastpost#lastpost">2012-3-6 20:46:40</a></em>
</td>
</tr>
</tbody>

java包返回的:

<tbody id="normalthread_14777">

<tr>
<td class="icn">
<a href="thread-15648-1-1.html" title="有新回复 - 新窗口打开" target="_blank">
<img src="static/image/common/folder_new.gif" />
</a>
</td>
<th class="new">
 <a href="thread-15648-1-1.html" onclick="atarget(this)" class="xst" >山东大学校董会名誉主席梁振英当选香港第四任特首</a>
<a href="forum.php?mod=redirect&amp;tid=15648&amp;goto=lastpost#lastpost" class="xi1">New</a>
</th>
<td class="by">
<cite>
<a href="home.php?mod=space&amp;uid=2109" c="1">liuzhiwu</a></cite>
<em><span class="xi1">2012-3-26</span></em>
</td>
<td class="num"><a href="thread-15648-1-1.html" class="xi2">0</a><em>1</em></td>
<td class="by">
<cite><a href="home.php?mod=space&username=liuzhiwu" c="1">liuzhiwu</a></cite>
<em><a href="forum.php?mod=redirect&tid=15648&goto=lastpost#lastpost"><span title="2012-3-26 10:28:41">4&nbsp;分钟前</span></a></em>
</td>
</tr>

</tbody>

其中链接前的class标签不同,浏览器重的是common而java返回的是new。

所以使正则表达式不能正确的匹配出链接来

 

 

2错误2:解析得到了url链接,却无法解析得到帖子内容(http://bbs.sdu.edu.cn/forum-242-2.html

解析得到的url为:http://bbs.sdu.edu.cn/forum.php?mod=viewthread&amp;tid=15626&amp;extra=page%3D1%26filter%3Dsortid%26sortid%3D4%26sortid%3D4

用正则表达式解析式将&自动转译成&amp;使得不能正常返回网页内容。

用java中的字符串处理将&amp;在转译成&就会得到如下正确地址:

http://bbs.sdu.edu.cn/forum.php?mod=viewthread&tid=15626&extra=page%3D1%26filter%3Dsortid%26sortid%3D4%26sortid%3D4


 

揭秘骗术:黑客人肉、查开房的灰色项目

其实我们当中大多数人都有好赌心理,在利益面前,无知的贪婪会让你更加大胆。 无论是小亏还是大亏,你总会有各种各样的理由说服自己,这便是“合理性” 偶尔的犯错确实会让人成长,但只属于理智的人。...
  • muyeseocom
  • muyeseocom
  • 2018年01月06日 09:28
  • 105

华为2015机试--记录出错的代码所在的文件名称和行号

我没机会参加今年华为的提前招聘(都不知道有这个渠道)题目如下: 开发一个简单错误记录功能小模块,能够记录出错的代码坐在的文件名称和行号。 处理: 1.记录最多8条错误记录,对相同的错误记录(即文...
  • vgxpm
  • vgxpm
  • 2015年08月30日 15:02
  • 2506

自学 OPENCV 的记录贴

首先这个是一篇学习生涯的总结文,偏技术向,写给自己,incidentally 看看自己这段时间干什么了,又怎么往前走,go elsewhere。 整天埋头看书给我最大的感受就是:然后呢,学习一种从来...
  • qq_23947237
  • qq_23947237
  • 2016年05月09日 10:47
  • 782

17年6月记录贴

6月13号: (1)最小度限制生成树:求这么一颗最小生成树,他的某一个规定节点v0的度不超过k          看答案已解决:先把相连v0的边全删了,然后求最小生成树,当然形成了m个子树森林。就表明...
  • qq_30927651
  • qq_30927651
  • 2017年06月14日 13:22
  • 72

仿百度贴吧回帖功能分析及代码示例

完整社区项目实战讲解-论坛模块的人性化回复功能,仿百度贴吧的动态回复,以及嵌套回复功能。让论坛交流更智能化,人性化。...
  • Iammiky
  • Iammiky
  • 2017年06月24日 12:32
  • 786

《python爬虫实战》:爬取贴吧上的帖子

《python爬虫实战》:爬取贴吧上的帖子经过前面两篇例子的练习,自己也对爬虫有了一定的经验。 由于目前还没有利用BeautifulSoup库,因此关于爬虫的难点还是正则表达式的书写。但是,当写几个...
  • u010412719
  • u010412719
  • 2015年12月06日 22:18
  • 8995

贴吧项目(struts+hibernate)--界面代码

index.jsp: 主题列表 传智播
  • CSDN_GIA
  • CSDN_GIA
  • 2017年03月06日 15:53
  • 583

win10 uwp 活动磁贴

本文翻译:https://mobileprogrammerblog.wordpress.com/2015/12/23/live-tiles-and-notifications-in-universal...
  • lindexi_gd
  • lindexi_gd
  • 2016年04月29日 10:59
  • 5960

仿win8磁贴界面以及功能

做移动产品界面占很大的一部分,同时也是决定一款产品好的的重要因素,最近看见有人放win8的界面效果,搜了两款,一款是只是仿界面没有特效,另一款是自定义组件能够实现反转效果,今天分析一下这两类界面。 仿...
  • jwzhangjie
  • jwzhangjie
  • 2014年01月25日 09:57
  • 8812

Android实现Windows 8磁贴(Tile)样式按钮

《Android实现Windows 8磁贴(Tile)样式按钮》 效果图如下: 我在网上流传的代码基础上精简、整理出一个简单的类,我暂时把它命名为:Windows8TileImageView,...
  • zhangphil
  • zhangphil
  • 2015年04月09日 11:05
  • 1965
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:错误记录:贴吧爬取
举报原因:
原因补充:

(最多只允许输入30个字)