错误记录:贴吧爬取

原创 2012年03月26日 10:35:38

1:为什么匹配不出url链接:找到原因了,不是正则表达式的问题原来从浏览器里贴出了的源代码和调用java包返回的源代码不同(原因不明)如下

浏览器:

<tbody id="normalthread_14777">
<tr>
<td class="icn">
<a href="thread-14777-1-1.html" title="新窗口打开" target="_blank">
<img src="static/image/common/folder_common.gif" />
</a>
</td>
<th class="common">
 <a href="thread-14777-1-1.html" style="font-weight: bold;color: #2B65B7" onclick="atarget(this)" class="xst" >青岛5所高中要搬迁,19中搬迁鳌山卫,配套山大青岛校区</a>
</th>
<td class="by">
<cite>
<a href="home.php?mod=space&amp;uid=3324" c="1">number11</a></cite>
<em><span>2012-2-29</span></em>
</td>
<td class="num"><a href="thread-14777-1-1.html" class="xi2">6</a><em>657</em></td>
<td class="by">
<cite><a href="home.php?mod=space&username=%E5%8D%81%E5%85%AD%E7%9A%84%E6%9C%88%E4%BA%AE" c="1">十六的月亮</a></cite>
<em><a href="forum.php?mod=redirect&tid=14777&goto=lastpost#lastpost">2012-3-6 20:46:40</a></em>
</td>
</tr>
</tbody>

java包返回的:

<tbody id="normalthread_14777">

<tr>
<td class="icn">
<a href="thread-15648-1-1.html" title="有新回复 - 新窗口打开" target="_blank">
<img src="static/image/common/folder_new.gif" />
</a>
</td>
<th class="new">
 <a href="thread-15648-1-1.html" onclick="atarget(this)" class="xst" >山东大学校董会名誉主席梁振英当选香港第四任特首</a>
<a href="forum.php?mod=redirect&amp;tid=15648&amp;goto=lastpost#lastpost" class="xi1">New</a>
</th>
<td class="by">
<cite>
<a href="home.php?mod=space&amp;uid=2109" c="1">liuzhiwu</a></cite>
<em><span class="xi1">2012-3-26</span></em>
</td>
<td class="num"><a href="thread-15648-1-1.html" class="xi2">0</a><em>1</em></td>
<td class="by">
<cite><a href="home.php?mod=space&username=liuzhiwu" c="1">liuzhiwu</a></cite>
<em><a href="forum.php?mod=redirect&tid=15648&goto=lastpost#lastpost"><span title="2012-3-26 10:28:41">4&nbsp;分钟前</span></a></em>
</td>
</tr>

</tbody>

其中链接前的class标签不同,浏览器重的是common而java返回的是new。

所以使正则表达式不能正确的匹配出链接来

 

 

2错误2:解析得到了url链接,却无法解析得到帖子内容(http://bbs.sdu.edu.cn/forum-242-2.html

解析得到的url为:http://bbs.sdu.edu.cn/forum.php?mod=viewthread&amp;tid=15626&amp;extra=page%3D1%26filter%3Dsortid%26sortid%3D4%26sortid%3D4

用正则表达式解析式将&自动转译成&amp;使得不能正常返回网页内容。

用java中的字符串处理将&amp;在转译成&就会得到如下正确地址:

http://bbs.sdu.edu.cn/forum.php?mod=viewthread&tid=15626&extra=page%3D1%26filter%3Dsortid%26sortid%3D4%26sortid%3D4


 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Scrapy爬取百度股票时遇403错误的解决方法

用Scrapy爬取百度股票的单支股票信息时,遇到403拒绝访问错误,这应该是触发了反爬机制。 解决方法:通过尝试发现百度股票(http://gupiao.baidu.com)反爬机制是检测User-A...

Python爬虫__爬取贴吧图片和文本

1. 爬取图片1.1 前言这是一个李清照吧http://tieba.baidu.com/p/3825973883 里面有楼主上传的书法作品,每一楼的格式大致是这样,文本加上书法图片: ...

Python爬虫urllib笔记(四)之使用BeautifulSoup爬取百度贴吧

BeautifulSoup-第三方分析网页内容库--替换正则表达式(有官方中文文档可查看) 提取百度贴吧网页中的楼主发的图片 # -*- coding:utf-8 - # # # Beau...

03crawler02 爬取贴吧排名, 制作图片集

接下来一个应用是在贴吧看到的, 一位吧友发了一个关于前三百名的吧友的排名的头像,不过 在前几天, 没事的时候, 突然看见这个帖子漂了上来, 然后 思考这个问题的思路 后来 使用我的”爬虫框架”, 实...

爬取整个百度贴吧

python是一门面向对象的编程语言,在我之前所学习的一些小爬虫中,代码大部分比价简单,都是面向过程的。但是在爬百度贴吧一个整个贴吧的时候问题就来了,要写出一个通用的代码,就要考虑获取贴吧的页数,帖子...

python爬虫(13)爬取百度贴吧帖子

爬取百度贴吧帖子 一开始只是在网上看到别人写的爬取帖子的文章,然后自己就忍不住手痒自己锻炼一下, 然后照着别人的写完,发现不太过瘾, 毕竟只是获取单个帖子的内容,感觉内容稍显单薄,然后自己重新做了修...

爬取百度贴吧用户的帖子

在基于Python爬虫实战二之爬取百度贴吧帖子的项目–崔庆才(http://cuiqingcai.com/993.html),该项目最终爬取一个贴子的所有楼层或者只看楼主。 想到自己可以爬取一个用户...

python爬虫小项目: 爬取百度贴吧帖子

本文同样是基于静觅系列的python3.x版,具体步骤请前往静觅系列学习 关于encode()与decode()的问题:可以参照xanderzhang 及921800467的专栏 可完成静觅系列相同功...
  • funj_
  • funj_
  • 2016-11-04 20:24
  • 1445

Python爬取某贴吧第一页的所有帖子的标题、连接、作者,将数据储存到txt文件中

学习网络爬虫的第二个程序:#-*- coding:utf-8 -*- #import re import urllib from bs4 import BeautifulSoup import ur...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)