Python爬虫的简单入门

import csv

import requests

import re

header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36'
}
count =0
#url = 'https://movie.**.com/top250'
for id in range(0,250,25):

    url = f'https://movie.***.com/top250?start={id}&filter='
    resp = requests.get(url, headers=header)
    contents = resp.text
    obj = re.compile(
        r'<li>.*?<div class="item">.*?<span class="title">(?P<name>.*?)</span>.*?<div class="bd">.*?<div class="bd">.*?'
        r'<p class="">(?P<director>.*?)&nbsp;.*?主演(?P<main>.*?)...<br>'
        r'.*?<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
        r'<span>(?P<num>.*?)人评价</span>', re.S)
    result = obj.finditer(contents)
    f = open("**top250.csv", mode="a",newline='',encoding='utf-8-sig')
    csvwriter = csv.writer(f)
    for i in result:
        dic = i.groupdict()
        dic['director'] = dic['director'].strip()
        dic['score'] = '\n' + '评分:' + dic['score']
        dic['main'] = '主演' + dic['main']
        dic['num'] = dic['num'] + '人评价'
        csvwriter.writerow(dic.values())
    f.close()
    count+=1
print("over!!!!"+str(count))

对于某网站的简单爬取

爬取的结果:
在这里插入图片描述
对于爬取的数据进行整理:
在这里插入图片描述

哈哈哈,爬虫好帅
涉及网站名称已经用**代替

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值