1. 本系列前言
一直想写Python与SEO的系列文章,因为随着SEO工作的开展,以及自身Python水平的提高,Python在SEO中的应用越来越多,使用的范畴也越来越广。
本系列暂时计划分为几个主题,将在近几周完成:
数据采集 关键词拓展 数据系统 工具篇
适用人群:具有Python基础的SEOer(没有Python基础的直接往下拉,看推荐的Python教程)。
2. SEO与数据采集
SEO工作离不开数据采集。获取某个频道所有URL,查询一批网页的收录/排名情况,采集竞争对手的特定数据,都需要用到数据采集。
特别是对个人站长来说,只有通过数据采集才能获得大量数据,并生成网页。
3. 原始爬虫
最原始的爬虫爬虫可以只是发送一个HTTP请求,并获取返回的响应数据,使用Requests三行就可以写出一个简单的爬虫,代码如下:
import requests r = requests.get('http://www.zhidaow.com') print r.content
1
importrequestsr=requests.get('http://www.zhidaow.com')printr.content
注:
关于Requests的入门教程可以看我这篇文章; 除了Requests,还可以使用
给原始爬虫升级几个技能就可以投入使用了,我经常升级以下几个功能。
4.1 获取特定字段: BeautifulSoup+Requests
BeautifulSoup可以将HTML解析为DOM树,然后获取特定字段。关于BeautifulSoup的详细内容可以看这篇文章,这里只举一个简单的例子。
以下是途牛某游玩页面的部分代码
玉渊潭樱花节
地 址:
游玩时间:预计4小时
1
玉渊潭樱花节地 址:
游玩时间:预计4小时