爬虫入门python

最新推荐文章于 2025-01-15 11:43:18 发布

Pilipalaaaaa

最新推荐文章于 2025-01-15 11:43:18 发布

阅读量538

点赞数

文章标签：单片机嵌入式硬件 ubuntu

本文链接：https://blog.csdn.net/qq_46359931/article/details/121438291

版权

爬虫概念

爬虫又被称为网页蜘蛛、网络机器人，有时也被称为网页追逐者，是一种按照一定的规则，自动地抓取互联网上网页中相应信息（文本、图片等）的程序或脚本，然后把抓取的信息存储到自己的计算机上。简单来说，爬虫就是抓取目标网站内容的工具，一般是根据定义的行为自动进行抓取，更智能的爬虫会自动分析目标网站结构，类似于搜索引擎的爬虫。

创建虚拟环境并爬取数据

在anaconda环境下准备自己的虚拟环境，并安装python。创建成功后可查询到：
请添加图片描述
且在anaconda中可看到：

.1 爬取网站 http://www.51mxd.cn/

在Spyder，新建.py文件
以代码：

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 14 20:50:12 2021

@author: hp
"""
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm

# 模拟浏览器访问
Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'

# 表头
csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']

# 题目数据
subjects = []

# 爬取题目
print('题目信息爬取中：\n')
for pages in tqdm(range(1, 11 + 1)):

    r = requests.get(f'http://www.51mxd.cn/problemset.php-page={pages}.htm', Headers)

    r.raise_for_status()

    r.encoding = 'utf-8'

    soup = BeautifulSoup(r.text, 'html.parser')

    td = soup.find_all('td')

    subject = []

    for t in td:
        if t.string is not None:
            subject.append(t.string)
            if len(subject) == 5:
                subjects.append(subject)
                subject = []

# 存放题目
with open('NYOJ_Subjects.csv', 'w', newline='') as file:
    fileWriter = csv.writer(file)
    fileWriter.writerow(csvHeaders)
    fileWriter.writerows(subjects)

print('\n题目信息爬取完成！！！')

得到结果：
请添加图片描述

.2 爬取http://news.cqjtu.edu.cn/xxtz.html中消息的日期和标题

以代码：

# -*- coding: utf-8 -*-
"""
Created on Sun Nov 14 21:17:21 2021

@author: hp
"""
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm

# 模拟浏览器访问

Headers ={ 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.44'
}
#csv的表头
cqjtu_head=["日期","标题"]
#存放内容
cqjtu_infomation=[]

#获取新闻标题和时间
def get_time_and_title(page_num,Headers):#页数，请求头
    if page_num==66 :
        url='http://news.cqjtu.edu.cn/xxtz.htm'
    else :
        url=f'http://news.cqjtu.edu.cn/xxtz/{page_num}.htm'
    r=requests.get(url,headers=Headers)
    r.raise_for_status()
    r.encoding="utf-8"
    array={#根据class来选择
        'class':'time',
        }
    title_array={
     'target':'_blank'
    }
    page_array={
    'type':'text/javascript'
    }
    soup = BeautifulSoup(r.text, 'html.parser')
    time=soup.find_all('div',array)
    title=soup.find_all('a',title_array)
    temp=[]
    for i in range(0,len(time)):
        time_s=time[i].string
        time_s=time_s.strip('\n                                    ')
        time_s=time_s.strip('\n                                ')
        #清除空格
        temp.append(time_s)
        temp.append(title[i+1].string)
        cqjtu_infomation.append(temp)
        temp=[]

# 爬取题目
print('新闻信息爬取中：\n')
for pages in tqdm(range(66, 0,-1)):
    get_time_and_title(pages,Headers)

# 存放题目
with open('cqjtu_news.csv', 'w', newline='') as file:
    fileWriter = csv.writer(file)
    fileWriter.writerow(cqjtu_head)
    fileWriter.writerows(cqjtu_infomation)

print('\n新闻信息爬取完成！！！')