python简单爬虫入库_初探python之做一个简单小爬虫-CSDN博客

准备工作

初探python，这个文章属于自己的一个总结。所以教程面向新手，无技术含量。

python环境Linux基本都有，Windows下官网也提供了便利的安装包，怎么安装配置网上有很多教程在此就不一一说明。

我使用的python版本为Python 3.6.4，后面的代码也是基于python3的。

分析需求

做一个小爬虫离不开获取网页内容和匹配存储内容，那么我们先装上python爬虫的老朋友requests：

pip install requests

再装上pymysql扩展，方便将匹配到的内容插入到mysql数据库中：

pip install pymysql

第一步：获取网页内容

在python中有意思的是你需要什么，就去import什么，不像php一样获取网页内容直接来个file_get_contents完事儿

废话不多说，贴出代码来看一下：

# -*- coding:utf-8 -*-

# 加载 requests 模块

import requests

# GET方式获取 Response 对象

response = requests.get('https://www.xxx.com/')

if response:

# 输出html代码到控制台

print(response.text)

else:

# 输出错误信息

print('requests error')

在python中缩进一定要严格，初学者(4个空格为语句块缩进)经常犯的错误是tab键和空间键混用，造成的缩进不一致。凡是报错信息看到：IndentationError: unexpected indent ，就是表示缩进不一致。

如果本身没有编码基础，那么我推荐你看一下python的基本概念：http://www.kuqin.com/abyteofpython_cn/ch04.html

如果已经有了编码基础但对缩进这方面没有深究，可以看python的缩进规范：http://www.kuqin.com/abyteofpython_cn/ch04s09.html

好，写完代码之后我们拿到控制台试一下，完美输出html代码

第二步：正则匹配内容

既然能够获取html代码，那我们就要找出需要的部分，这就用上了正则。Python 自1.5版本起增加了 re 模块，它提供 Perl 风格的正则表达式模式。具体细节可以在菜鸟教程中查看：http://www.runoob.com/python/python-reg-expressions.html，话不多说再贴代码：

# -*- coding:utf-8 -*-

# 加载 requests 模块

import requests

# 加载 re 模块

import re

response = requests.get('https://www.xxx.com/')

# 正则匹配文本

match = re.findall(r'

([\s\S]*?)

', response.text)

if match:

# 输出匹配的内容到控制台