@本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府
概述
这是一个简单的python爬虫程序,仅用作技术学习与交流,主要是通过一个简单的实际案例来对网络爬虫有个基础的认识。
什么是网络爬虫
简单的讲,网络爬虫就是模拟人访问web站点的行为来获取有价值的数据。专业的解释:百度百科
分析爬虫需求
确定目标
爬取豆瓣热度在Top100以内的电影的一些信息,包括电影的名称、豆瓣评分、导演、编剧、主演、类型、制片国家/地区、语言、上映日期、片长、IMDb链接等信息。
分析目标
1.借助工具分析目标网页
首先,我们打开豆瓣电影·热门电影,会发现页面总共20部电影,但当查看页面源代码当时候,在源代码中根本找不到这些电影当信息。这是为什么呢?原来豆瓣在这里是通过ajax技术获取电影信息,再动态的将数据加载到页面中的。这就需要借助Chrome的开发者工具,先找到获取电影信息的API。
2.然后对电影详情页进行分析
思路分析
具体实现
开发环境
python3.6
pycharm
主要依赖库
urllib – 基础性的网络相关操作
lxml – 通过xpath语法解析HTML页面
json – 对通过API获取的JSON数据进行操作
re – 正则操作
代码实现
from urllib import request
from lxml import etree
import json
import re
import ssl
# 全局取消证书验证
ssl._create_default_https_context = ssl._create_unverified_context
def get_headers():
"""
返回请求头信息
:return:
"""
headers = {
'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) "
"AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/65.0.3325.181 Safari/537.36"
}
return headers
def get_url_content(url):
"""
获取指定url的请求内容
:param url:
:return:
"