Python爬虫学习笔记_爬虫获取页码-CSDN博客

本文链接：https://blog.csdn.net/qq_52652401/article/details/122649313

第一部分

1 爬取搜狗首页的页面数据

import requests

url = 'https://www.sogou.com/' # 搜狗页面
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
page_text = requests.get(url=url, headers=headers).text # 获取页面HTML数据
# 进行持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    print('data saved successfully')

2 爬取搜狗指定词条对应的搜索结果页面

import requests

url = 'https://www.sogou.com/web' # 基础url
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
kw = input('enter a word:') # 输入需要查询的对象
param = {'query':kw}
# 此处需要有HTTP基本原理的了解(相当于重新构建了一个新的URL)
page_text = requests.get(url=url, params=param, headers=headers).text
# 持久化存储
fileName = './' + kw + '.html'
with open(fileName, 'w', encoding='utf-8') as fp:
    fp.write(page_text)
    print('data saved successfully')

3 爬取百度翻译

import requests
import json

post_url = 'https://fanyi.baidu.com/sug' # post请求
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
word = input('enter a word:') # 输入翻译对象
data = {'kw':word}
# post的data参数也同样是构造了一个新的url
response = requests.post(url=post_url, data=data, headers=headers)
# 获取的是json数据
dic_obj = response.json()
# 持久化存储
fileName = './' + word + '.json'
fp = open(fileName, 'w', encoding='utf-8')
json.dump(dic_obj, fp=fp, ensure_ascii=False) # ensure_ascii保证中文文本正常
print('data saved successfully')

4 爬取豆瓣电影分类排行榜

import requests
import json

url = 'https://movie.douban.com/j/chart/top_list'
param = {
    'type': '20',
    'interval_id': '100:90',
    'action':'',
    'start': '0', # 页数
    'limit': '20' # 每页的数量
}
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
response = requests.get(url=url, params=param , headers=headers)
list_data = response.json()
# json文件存储
fp = open('./douban.json', 'w', encoding='utf-8')
json.dump(list_data, fp=fp, ensure_ascii=False)
print('data saved successfully')

5 爬取肯德基餐厅位置

import requests
import json

url = 'http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
kw = input('enter a word:') # 输入地理位置
data = {
    'cname':'',
    'pid':'' ,
    'keyword': kw,
    'pageIndex':'1', # 页码
    'pageSize':'10' # 每页数量
}
kfc_data = requests.post(url=url, data=data, headers=headers).text
fp = open('./kfccda.json', 'w', encoding='utf-8')
json.dump(kfc_data, fp=fp, ensure_ascii=False)
print('data saved successfully')

6 爬取国家药品管理监察管理总局化妆品生产许可相关数据

import requests
import json

"""实现：
        1.获取列表页的所有公司的id
        2.获取每一个公司的详细信息
"""
url = 'http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsList' # Ajax页面渲染
headers = {
    'User-Agent':'Mozilla/4.0 (compatible;MSIE 5.5;Windows NT)'
}
"""第一步实现"""
ids = []
for page in range(1,3):
    data = {
        'on': 'true',
        'page': str(page),
        'pageSize': '15',
        'productName':'',
        'conditionType': '1',
        'applyname': '',
        'applysn':''
    }
    list_data = requests.post(url=url, data=data, headers=headers).json()
    for id in list_data['list']:
        ids.append(id['ID'])
"""第二步实现"""
all_data = []
detail_url ='http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.do?method=getXkzsById' # 详情页的url
for id in ids:
    id_data = { 'id':id}
    one_data = requests.post(url=detail_url, data=id_data, headers=headers).json()
    print(one_data)
    all_data.append(one_data)
# 持久化存储
fp = open('./huazhuangping.json', 'w', encoding='utf-8')
json.dump(all_data, fp=fp, ensure_ascii=False)
print('data saved successfully')

第二部分

"""目标：
        1.利用requests爬取这个站点每一页的电影列表，顺着列表再爬取每一个电影的详情页；
        2.利用正则表达式提取每一部电影的名称、封面、类别、上映时间、评分、剧情简介等内容；
        3.把以上爬取的内容保存为JSON文本文件；
        4.使用多进程实现爬取的加速。
"""

"""实现：
        1.遍历所有页码，构造10页的索引URL；
        2.从每个索引页，分析提取出每个电影的详情页URL。
"""

import logging    # 用来输出信息
import requests
import re
from urllib.parse import urljoin

logging.basicConfig(level=logging.INFO,
                    format='%(asctime)s - %(levelname)s: %(message)s')    # 日志输出级别和输出格式
base_url = 'https://ssr1.scrape.center'    # 当前站点的根URL
total_page = 10    # 爬取的页数

"""第一步 获取HTML代码"""
def scrape_page(url):
    # 一个通用爬取页面的方法
    logging.info('scraping %s...', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        logging.error('get invalid status code %s while scraping %s',
                      response.status_code, url)
    except requests.RequestException:
        logging.error('error occurred while scraping %s', url,
                      exc_info=True)

def scrape_index(page):
    # 列表页的爬取方法
    index_url = f'{base_url}/page/{page}'    # URl的拼接
    return scrape_page(index_url)


"""第二步 解析列表页，并获取每一部电影的详情页的URL"""
def parse_index(html):
    pattern = re.compile('<a.*?href="(.*?)".*?class="name">')
    items = re.findall(pattern, html)
    if not items:
        return []
    for item in items:
        detail_url = urljoin(base_url, item)    # 每一部电影详情页的URL
        logging.info('get detail url %s', detail_url)
        yield detail_url


"""第三步 爬取详情页内容"""
def scrape_detail(url):
    # 一个详情页的爬取方法
    return scrape_page(url)


"""分析:
        1.封面：一个img节点，class的属性为cover。  '<img.*?src="(.*?)".*?class="cover">'
        2.名称：一个h2节点。  '<h2.*?>(.*?)</h2>'
        3.类别：一个span节点，span节点外侧为button节点。 '<button.*?category.*?<span>(.*?)</span>.*?</button>'
        4.上映时间：一个span节点，外侧为div节点。  '(\d{4}-\d{2}-\d{2})\s?上映'
        5.剧情简介：一个p节点，外侧为class为drama的div节点。  '<div.*?drama.*?>.*?<p.*?>(.*?).*?</p>'
        6.评分：一个p节点，外侧为class为score的div节点。  '<p.*?score.*?>(.*?)</p>'
"""
"""第四步 解析详情页"""
def parse_detail(html):
    cover_pattern = re.compile('class="item.*?<img.*?src="(.*?)".*?class="cover">', re.S)    # class="item 位置的标识符
    name_pattern = re.compile('<h2.*?>(.*?)</h2>')
    categories_pattern = re.compile('<button.*?category.*?<span>(.*?)</span>.*?</button>', re.S)
    published_at_pattern = re.compile('(\d{4}-\d{2}-\d{2})\s?上映')
    drama_pattern = re.compile('<div.*?drama.*?>.*?<p.*?>(.*?)</p>', re.S)
    score_pattern = re.compile('<p.*?score.*?>(.*?)</p>', re.S)

    cover = re.search(cover_pattern, html).group(1).strip() if re.search(cover_pattern, html) else None
    name = re.search(name_pattern, html).group(1).strip() if re.search(name_pattern, html) else None
    categories = re.findall(categories_pattern, html) if re.findall(categories_pattern, html) else []
    published_at = re.search(published_at_pattern, html).group(1) if re.search(published_at_pattern, html) else None
    drama = re.search(drama_pattern, html).group(1).strip() if re.search(drama_pattern, html) else None
    score = float(re.search(score_pattern, html).group(1).strip()) if re.search(score_pattern, html) else None

    return {
        'cover' : cover,
        'name' : name,
        'categories' : categories,
        'published_at' : published_at,
        'drama' : drama,
        'score' : score
    }


"""第五步 将数据保存为文本格式"""
import json
from os.path import exists
from os import makedirs

result_dir = 'results'
exists(result_dir) or makedirs(result_dir)

def save_data(data):
    # 保存数据的方法
    name = data.get('name')    # 获取电影名称
    data_path = f'{result_dir}/{name}.json'    # 构造JSON文件的路径
    # ensure_ascii 确保中文字符以正常的中文文本显示，indent 两行缩进
    json.dump(data, open(data_path, 'w', encoding='utf-8'), ensure_ascii=False, indent=2)


"""第六步 多线程加快数据爬取"""
import multiprocessing

def main(page):
    index_html = scrape_index(page)
    detail_urls = parse_index(index_html)
    for detail_url in detail_urls:
        detail_html = scrape_detail(detail_url)
        data = parse_detail(detail_html)
        logging.info('get datail data %s', data)
        logging.info('saving data to json file')
        save_data(data)
        logging.info('data saved successfully')

if __name__=='__main__':
    pool = multiprocessing.Pool()
    pages = range(1, total_page+1)
    pool.map(main, pages)
    pool.close()
    pool.join()