Python爬虫学习二（自用）

最新推荐文章于 2024-07-21 21:11:33 发布

Maybe Always

最新推荐文章于 2024-07-21 21:11:33 发布

阅读量77

点赞数

文章标签：爬虫学习

本文链接：https://blog.csdn.net/m0_68918284/article/details/125217258

版权

小叙

在之前的基础上，尝试对于豆瓣电影排行榜进行爬取，依旧是索然无味的按f12，找url，找相关预览内容等等……但是，在关于url上，却有更好玩的东西——参数封装。

先看一下原来的url：https://movie.douban.com/j/chart/top_list?type=25&interval_id=100%3A90&action=&start=0&limit=20

在Edge浏览器里负载里面可以找到type，id等相关内容。这就是参数封装的由来。来康康封装好的参数。

import requests

url ="https://movie.douban.com/j/chart/top_list"


param={

    "type": "24",
"interval_id": "100:90",
"action": "",
"start": 0,
"limit": 10,
}

headers={

   "User-Agent": "……"
}
resp=requests.get(url=url,params=param,headers=headers)
print(resp.json())
resp.close()

可以看到，list后面的参数都删除掉，而后面加了一个封装prama。话说也不知道是不是get形式的专属。对于参数start和limit的修改可以选取爬取的内容。

第二个爬虫

在爬取的过程中，经常会有爬取内容杂乱的现象，为了方便整理内容，就需要用到正则表达式，也就是re来帮忙整理数据。

正则表达式用到的模块为re模块，如以下例句。

re.compile(r'class="">.*? <span class="title">(?P<name>.*?)</span>',re.S)

这是一个编好的正则表达式，额，好像是预正则表达式。首先以写r ‘ ’,re.S 里面内容主要是以爬取的内容为主。第一，在内容中的变化内容用.*?来替换，你想要提取的内容用(?P<名字>.*?)来替代。

写好之后就可以进行使用，这里用的是finditer。

obj =re.compile(r'class="">.*? <span class="title">(?P<name>.*?)</span>',re.S)
    result =obj.finditer(movies)

print(it.group("name"))

最后打印就能得到需要的结果。（正则表达式有好多中查找方式）

import requests
import re
for n in range(0,251,25):
    url =f'https://movie.douban.com/top250?start={n}'
    headers ={

        "User-Agent":" …………"
    }
    resp =requests.get(url,headers=headers)
    movies =resp.text
    obj =re.compile(r'class="">.*? <span class="title">(?P<name>.*?)</span>',re.S)
    result =obj.finditer(movies)
    for it in result:
        print(it.group("name"))
    resp.close()