PYTHON爬虫爬取

.羡.

于 2022-11-09 20:46:11 发布

阅读量845

点赞数

文章标签：散列表算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54132294/article/details/127777544

版权

本文介绍了三种Python爬虫方法，包括使用标准库urllib下载平顶山学院新闻网的图片，文件按指定规则命名；利用scrapy框架抓取平顶山学院新闻网新闻栏目内容并写入文本文件；以及使用requests模块抓取网络教学平台上Python课程的章节标题。这些实例涵盖了基础爬虫技术的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.使用标准库urllib爬取““厚土造物”——第二届平顶山学院陶瓷艺术设计专业师生作品展在上海世纪公园开展-平顶山学院新闻网”平顶山学院新闻网上的图片，要求:保存到F盘pic目录中，文件名称命名规则为“本人姓名”+ “_图片编号”，如姓名为张三的第一张图片命名为“张三_1.jpg”。

参考代码：

from re import findall

from urllib.request import urlopen

url = 'http://news.pdsu.edu.cn/info/1005/31269.htm'

with urlopen(url) as fp:

content=fp.read().decode('utf-8')

pattern = '<img width="500" src="(.+?)"'

#查找所有图片链接地址

result = findall(pattern, content) #捕获分组

#逐个读取图片数据，并写入本地文件

path='f:/pic/'

xh='张三'

for index, item in enumerate(result):

urls='http://news.pdsu.edu.cn/'+item

with urlopen(str(urls)) as fp:

with open(path+xh+'_'+str(index)+'.jpg','wb') as fp1:

fp1.write(fp.read())

2. 采用scrapy爬虫框架，抓取平顶山学院新闻网（平顶山学院新闻网）站上的内容，具体要求：抓取新闻栏目，将结果写入lm.txt。

参考代码：

class MyspyderSpider(scrapy.Spider):

name = 'myspyder'

allowed_domains = ['pdsu.edu.cn']

start_urls = ['http://www.pdsu.edu.cn']

def parse(self, response):

html_doc=response.text

soup= BeautifulSoup(html_doc, 'html.parser')

re=soup.find_all('h2', class_='fl')

content=''

for lm in re:

print(lm.text)

content+=lm.text+'\n'

with open('f:\\lm.txt', 'a+') as fp:

fp.writelines(content)

3. 采用request爬虫模块，抓取平顶山学院网络教学平台上的Python语言及应用课程上的每一章标题（Python语言及应用【网络课程验收合格】）。

import requests

import bs4

import re

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'

}

url='http://mooc1.chaoxing.com/course/206046270.html'

response = requests.get(url,headers=headers).text

soup = bs4.BeautifulSoup(response,'html.parser')

t=soup.findAll('div',class_='f16 chapterText')

for ml in t:

print (ml.text)

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。