爬虫搜索基础篇(二)

转载 2015年11月20日 10:06:11


结构化数据

JSON字符串的数据是最好处理的,因为只需要解析之后就可以使用了,结构化数据基本都是这个类型。

二.内容

APP手机端的蓬勃兴起,在一定程度上改变了人们获取信息的习惯,以往都是打开电脑,在浏览器上面搜索自己需要的知识。现在只要有手机,有WIFI,搜索变得简单,方便的多了。爬虫除了检索网页上的内容之外,也会涉及到移动端的抓取请求,这里要分为两部分说明。

网页

很多新人都习惯性地认为,我们在网页上看到的就是全部内容,其实并不仅仅局限于网页代码里面的包含的信息,新人在这一块可能有碰到很多问题,比如:网页代码

如果是直接调用本地浏览器、要么就是抓取一些包含了JS代码的引擎,这两种做法在处理大量数据抓取是非常低效的,到底呈现在网页上的内容是如何实现的呢?主要分为以下几点:

.网页包含的内容

网页上的内容有一些是固定不变的,有一些内容是动态的,必须通过模板渲染生成,蜘蛛在获取这类信息的时候,只需要搜索特定的HTML标签即可得到,非常简单。

.JS代码的内容

在处理含有js代码的网页时,很容易检索到空内容。这是因为所有的内容不仅是html、同时还有js字符串,如果只处理html代码,那是无法得到信息的。这种情况下必须用正则表达式找到包含内容的js代码串,才能得到实质的信息,不能单一的解析html。

.Ajax异步的内容

下图是chrome浏览器,在页面以分页形式展现的时候,亦或是无刷新的情况下,出现以下情况就很正常。那我们该如何分析呢?这里简要说明:

chrome浏览器 

首先我们要学会观察数据,在页面刷新的时候,数据在哪一步被加载进来的,如果是没有意义的网页,就不需要理会了。如果一旦找到核心异步请求的时候,直接抓取就行了。

原文来自:码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

相关文章推荐

Scrapy爬虫实践之搜索并获取前程无忧职位信息(基础篇)

以一个完整的实例来介绍如何实现一个Scrapy爬虫,通过爬虫搜索,并获取前程无忧上的职位信息。...
  • peng00
  • peng00
  • 2015年09月29日 18:31
  • 3194

Python 爬虫知识记——基础篇

python 简单爬虫基础篇

Python篇----Requests获取网页源码(爬虫基础)

Requests is an Apache2 Licensed HTTP library, written inPython, for human beings. Python’s standard...

爬虫基础高级篇

示例import urllib2request = urllib2.Request("http://www.baidu.com") response = urllib2.urlopen(reque...

python——图片爬虫:爬取爱女神网站(www.znzhi.net)上的妹子图 基础篇

python学习第一步——爬图,而爬图第一步——妹子图 这篇博客我将带领大家通过urllib2+BeautifulSoup来完成对网站:爱女神 上妹子图的爬取,大家坐稳,发车啦! 一、分析网站 爱...

Python篇----Requests获取网页源码(爬虫基础)

转载:http://blog.csdn.net/guzhenping/article/details/43898449 1 下载与安装 见其他教程。 2 Requsts简...

Python爬虫之基础篇

关于Python的基本语法就不多说了,这里直接从各个小的程序开始,本文会不断地进行更新,一步步来走进Python~ 同时也希望各位可以给点好的建议哈~ 一、在Kali Linux中安装subli...
  • SKI_12
  • SKI_12
  • 2017年04月04日 17:40
  • 1889

网络爬虫之java基础篇QueryRunner(Ⅲ)

目录1Java操作数据库 java操作数据库第一种方法 java操作数据库的QueryRunner方法1、Java操作数据库如何将爬虫爬取的数据存储下来也是我们关注的问题之前,常用的存储方式有.txt...

如何构建一个分布式爬虫:基础篇

本文教大家如何构建一个简易的分布式爬虫

零基础写Java知乎爬虫之进阶篇

前面几篇文章,我们都是简单的实现了java爬虫抓取内容的问题,那么如果遇到复杂情况,我们还能继续那么做吗?答案当然是否定的,之前的仅仅是入门篇,都是些基础知识,给大家练手用的,本文我们就来点高大上的东...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:爬虫搜索基础篇(二)
举报原因:
原因补充:

(最多只允许输入30个字)