爬虫搜索基础篇（一）

转载于 2015-11-19 09:42:22 发布 · 370 阅读

·

0

·

文章标签：

#爬虫 #搜索 #结构 #码农 #应用

在线编程同时被 3 个专栏收录

15 篇文章

订阅专栏

15 篇文章

订阅专栏

14 篇文章

订阅专栏

一．目的

首先，我们要明确，蜘蛛爬虫的目的是什么？每天网上都会更新大量的咨询，爬虫就是将这些网站、应用的精华部分提取出来。就内容的形式而言，文本结构化和非文本结构化是比较常见的两种形式。

1.非文本结构化

1.1 HTML文本

目前主流的文本信息，大部分都基于此。其实它理应属于结构化文本，但是因为搜索引擎在提取内容的时候需要解析它的内部语言，甚至某些字符串才能得到结果，所以还是将其归类为非文本结构化信息。

列举一些常见的解析方式：

.CSS

CSS

这是TX首页财经部分的代码，一目了然，是用CSS来排版的。这也是目前主流的网页布局语言，里面id=finance，为了获取这块代码的内容，我们将finance标记为“#finance”，就得到了这块的HTML代码。用这种方法也可以获得其他内容。

.XPATH

xpath

利用chrome浏览器，基于XPATH的路径选择方法，可以快速得到所需内容，如图。

.正则表达式

在碰到小片段文本、字符串、或者是包含JS代码，就需要使用到这种方法，通过标准正则解析，用指定的格式匹配相关文本，一般适用于纯文本信息，可以很好的获取到有用的纯文本信息。

.字符串分隔

不建议经常使用，这个方法跟正则表达式差不多，因为比较偷懒。

1.2 一段文本

对于纯文本信息，我们也是需要提取其中有用的内容，例如一篇文章或者是一段简短的文字，如果是滞后处理，我们可以先把这些信息存储，如果需要实时提取的，可以使用以下方式处理:

.分词

将抓取到的文本信息进行分段分析，获取关键语句后进行分词处理，然后进行分词统计，类似于向量的表达方式。

.NLP

NLP的意思是词义分析，将获取到的文本信息用正负面的结果形式表示出来。

原文来自：码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。