1.使用标准库urllib爬取““厚土造物”——第二届平顶山学院陶瓷艺术设计专业师生作品展在上海世纪公园开展-平顶山学院新闻网”平顶山学院新闻网上的图片,要求:保存到F盘pic目录中,文件名称命名规则为“本人姓名”+ “_图片编号”,如姓名为张三的第一张图片命名为“张三_1.jpg”。
参考代码:
from re import findall
from urllib.request import urlopen
url = 'http://news.pdsu.edu.cn/info/1005/31269.htm'
with urlopen(url) as fp:
content=fp.read().decode('utf-8')
pattern = '<img width="500" src="(.+?)"'
#查找所有图片链接地址
result = findall(pattern, content) #捕获分组
#逐个读取图片数据,并写入本地文件
path='f:/pic/'
xh='张三'
for index, item in enumerate(result):
urls='http://news.pdsu.edu.cn/'+item
with urlopen(str(urls)) as fp:
with open(path+xh+'_'+str(index)+'.jpg','wb') as fp1:
fp1.write(fp.read())
2. 采用scrapy爬虫框架,抓取平顶山学院新闻网(平顶山学院新闻网)站上的内容,具体要求:抓取新闻栏目,将结果写入lm.txt。
参考代码:
class MyspyderSpider(scrapy.Spider):
name = 'myspyder'
allowed_domains = ['pdsu.edu.cn']
start_urls = ['http://www.pdsu.edu.cn']
def parse(self, response):
html_doc=response.text
soup= BeautifulSoup(html_doc, 'html.parser')
re=soup.find_all('h2', class_='fl')
content=''
for lm in re:
print(lm.text)
content+=lm.text+'\n'
with open('f:\\lm.txt', 'a+') as fp:
fp.writelines(content)
3. 采用request爬虫模块,抓取平顶山学院网络教学平台上的Python语言及应用课程上的每一章标题(Python语言及应用【网络课程验收合格】)。
import requests
import bs4
import re
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36'
}
url='http://mooc1.chaoxing.com/course/206046270.html'
response = requests.get(url,headers=headers).text
soup = bs4.BeautifulSoup(response,'html.parser')
t=soup.findAll('div',class_='f16 chapterText')
for ml in t:
print (ml.text)