爬虫搜索基础篇(一)

转载 2015年11月19日 09:42:22


一.目的

首先,我们要明确,蜘蛛爬虫的目的是什么?每天网上都会更新大量的咨询,爬虫就是将这些网站、应用的精华部分提取出来。就内容的形式而言,文本结构化和非文本结构化是比较常见的两种形式。

1.非文本结构化

1.1 HTML文本

目前主流的文本信息,大部分都基于此。其实它理应属于结构化文本,但是因为搜索引擎在提取内容的时候需要解析它的内部语言,甚至某些字符串才能得到结果,所以还是将其归类为非文本结构化信息。

列举一些常见的解析方式:

.CSS

CSS 

这是TX首页财经部分的代码,一目了然,是用CSS来排版的。这也是目前主流的网页布局语言,里面id=finance,为了获取这块代码的内容,我们将finance标记为“#finance”,就得到了这块的HTML代码。用这种方法也可以获得其他内容。

.XPATH

xpath 

利用chrome浏览器,基于XPATH的路径选择方法,可以快速得到所需内容,如图。

.正则表达式

在碰到小片段文本、字符串、或者是包含JS代码,就需要使用到这种方法,通过标准正则解析,用指定的格式匹配相关文本,一般适用于纯文本信息,可以很好的获取到有用的纯文本信息。

.字符串分隔

不建议经常使用,这个方法跟正则表达式差不多,因为比较偷懒。

1.2 一段文本

对于纯文本信息,我们也是需要提取其中有用的内容,例如一篇文章或者是一段简短的文字,如果是滞后处理,我们可以先把这些信息存储,如果需要实时提取的,可以使用以下方式处理:

.分词

将抓取到的文本信息进行分段分析,获取关键语句后进行分词处理,然后进行分词统计,类似于向量的表达方式。

.NLP

NLP的意思是词义分析,将获取到的文本信息用正负面的结果形式表示出来。

原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

Scrapy爬虫实践之搜索并获取前程无忧职位信息(基础篇)

以一个完整的实例来介绍如何实现一个Scrapy爬虫,通过爬虫搜索,并获取前程无忧上的职位信息。...
  • peng00
  • peng00
  • 2015年09月29日 18:31
  • 3251

爬虫搜索基础篇(二)

 结构化数据 JSON字符串的数据是最好处理的,因为只需要解析之后就可以使用了,结构化数据基本都是这个类型。 二.内容 APP手机端的蓬勃兴起,在一定程度上改变了人们获取信息的习惯,以往都...

爬虫-python基础篇

1.2 python 1.2.1 第三方库 Requests BeautifulSoup 1.2.2 重要知识点 1.2 python 1.2.1 第三方库 Requestspy...

【转】(二)零基础写Java知乎爬虫之进阶篇

转自:https://www.cnblogs.com/shirui/p/5137238.html 说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于...

网络爬虫之java基础篇QueryRunner(Ⅲ)

目录1Java操作数据库 java操作数据库第一种方法 java操作数据库的QueryRunner方法1、Java操作数据库如何将爬虫爬取的数据存储下来也是我们关注的问题之前,常用的存储方式有.txt...

Python爬虫之基础篇

关于Python的基本语法就不多说了,这里直接从各个小的程序开始,本文会不断地进行更新,一步步来走进Python~ 同时也希望各位可以给点好的建议哈~ 一、在Kali Linux中安装subli...
  • SKI_12
  • SKI_12
  • 2017年04月04日 17:40
  • 2309

零基础写Java知乎爬虫之进阶篇

说到爬虫,使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能,但是对于一些比较高级的功能,比如重定向的处理,HTML标记的去除,仅仅使用URLConnection还是不够...

python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇

python学习第一步——爬图,而爬图第一步——妹子图 这篇博客我将带领大家通过urllib2+BeautifulSoup来完成对网站:爱女神 上妹子图的爬取,大家坐稳,发车啦! 一、分析网站 爱...

零基础写Java知乎爬虫之进阶篇

前面几篇文章,我们都是简单的实现了java爬虫抓取内容的问题,那么如果遇到复杂情况,我们还能继续那么做吗?答案当然是否定的,之前的仅仅是入门篇,都是些基础知识,给大家练手用的,本文我们就来点高大上的东...

Python篇----Requests获取网页源码(爬虫基础)

转载:http://blog.csdn.net/guzhenping/article/details/43898449 1 下载与安装 见其他教程。 2 Requsts简...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬虫搜索基础篇(一)
举报原因:
原因补充:

(最多只允许输入30个字)