# 1、斗图网的爬取
import requests
import re
import pymssql
import time
import db # 将创建的包导入(数据库连接)
# 获取图片列表
def getImagesList(page):
url = 'https://www.doutula.com/photo/list/?page={}'.format(page)
html = requests.get(url).text
# data - original = "http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1gchim9xbv4j20jg0hxaai.jpg"
# alt = "有被冒犯到"
reg = r'data-original="(.*?)".*?alt="(.*?)"' # .*? : 匹配所有 () : 分组匹配
reg = re.compile(reg, re.S) # 增加匹配效率 S : 多行匹配
imagesList = re.findall(reg, html)
for i in imagesList:
images_url = i[0]
images_title = i[1]
# 插入数据
db.dataBaseOper("insert into dbo.imagesList(imgUrl, imgTitle) values ('%s', '%s')" % (i[0], i[1]))
print('正在保存:' + i[0])
if __name__ == "__main__":
startTime = time.time()
for i in range(13, 15):
print('爬取第{}页'.format(i))
getImagesList(i)
print('第%s页爬取完成' % i)
endTime = time.time()
print(f'共耗时:{endTime-startTime} s')
# 2、中国大学排名定向爬虫网页数据
import requests
from bs4 import BeautifulSoup
import re
import bs4
import pandas as pd
# 获取html的内容
def getHtmlText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 若状态码不是200,引发HttpError异常
r.encoding = r.apparent_encoding # 修改编码
return r.text
except:
return 'false'
# 将获取指定的内容存放至列表
def fillUnivList(ulist, html):
soup = BeautifulSoup(html, 'html.parser')
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag):
tds = tr('td')
ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])
# 打印列表的内容
def printUnivList(ulist, num):
print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format("排名", "学习名称", "省市", "总分"))
for i in range(num):
u = ulist[i]
print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))
# 打印列表的内容新(优化中文对齐问题,空格填充 chr(12288))
def printUnivListNew(ulist, num):
tplt = "{0:{4}^10}\t{1:{4}^10}\t{2:{4}^10}\t{3:{4}^10}" # 占位符
print(tplt.format("排名", "学校名称", "省市", "总分", chr(12288)))
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))
# 输出列表的内容至excel中
def outputToExcel(ulist, num):
df = pd.DataFrame(ulist, columns=['ranking', 'univName', 'provinces', 'scores'])
df.to_excel("D:\python\数据\原数据\最好大学排名.xlsx", index=False)
if __name__ == '__main__':
uinfo = []
url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
html = getHtmlText(url)
fillUnivList(uinfo, html)
# printUnivList(uinfo, 20)
printUnivListNew(uinfo, 50)
# 3、python练习册之图片爬取
'''
参考文献:
https://www.cnblogs.com/zyb993963526/p/8337839.html
'''
from urllib import request
from bs4 import BeautifulSoup
import requests
import re
import time
def getImagesListUrl(url):
html = request.urlopen(url).read().decode('utf-8')
reg = re.compile(r'<img.*?class="BDE_Image" src="(.*?)".*?>')
imagesListUrl = re.findall(reg, html)
return imagesListUrl
# 保存图片1:
def saveFigures(imagesListUrl, savePath):
count = 1
for imgUrl in imagesListUrl:
r = requests.get(imgUrl, stream=True) # 持续下载
print(imgUrl.split('/')[-1])
imgName = '\%s.jpg' % (count)
count += 1
with open(savePath+imgName, 'wb') as f:
for chunk in r.iter_content(chunk_size=32):
f.write(chunk)
print(' saved %s' % imgName)
# 保存图片2:快于1
def saveImages(imagesListUrl, savePath):
count = 1
for imgUrl in imagesListUrl:
print(imgUrl.split('/')[-1])
request.urlretrieve(imgUrl, '%s/%s.jpg' % (savePath, count))
count += 1
print(' save \%s.jpg' % count)
# 下载图片: 快于2
def getImages(url, savePath):
html = request.urlopen(url).read()
html = html.decode()
soup = BeautifulSoup(html, 'lxml')
count = 1
imgListUrl = soup.findAll("img", class_='BDE_Image')
for imgUrl in imgListUrl:
imgUrl = imgUrl['src']
print(imgUrl.split('/')[-1])
request.urlretrieve(imgUrl, '%s\%s.jpg' % (savePath, count))
count += 1
print(' save %s.jpg' % count)
if __name__ == '__main__':
startTime = time.time()
url = "http://tieba.baidu.com/p/2166231880"
savePath = 'D:\python\数据\爬虫图片'
# imagesListUrl = getImagesListUrl(url)
# # saveFigures(imagesListUrl, savePath) # 84.44
# saveImages(imagesListUrl, savePath) # 62
getImages(url, savePath) # 48
endTime = time.time()
print(f'图片爬取完毕,共耗时{endTime-startTime}')
'''
# 正则表达式: 简洁表达一组字符串表达式 import re
通用的字符串表达框架
简洁表达字符串的表达式
判断某字符串的特征归属
正则表达式的常用操作符:
. : 表示任何单个字符
[] : 字符集,对单个字符给出取值范围 [abc] 表示a、b、c , [a-z] 表示a到z单个字符
[^ ] : 非字符集,对单个字符给出排除范围 [^abc] 表示非a或b或c的单个字符
* : 前一个字符0次或无限次扩展,abc* 表示ab、abc、abcc等 (*前的字符)
+ : 前一个字符1次或无限次扩展,abc+ 表示abc、abcc等
? : 前一个字符0次或1次扩展,abc? 表示ab、abc
| : 左右表达式任意一个, abc|def 表示abc、def
{m} : 扩展前一个字符m次, ab{2}c表示abbc
{m, n} :扩展前一个字符m至n次(含n) , ab{1, 2}c表示abc、abbc
^ : 匹配字符串开头,^abc表示abc且在一个字符串的开头
$ : 匹配字符串结尾,abc$表示abc且在一个字符串的结尾
() : 分组标记,内部只能使用|操作符, (abc)表示abc, (abc|def)表示abc、def
\d : 数字,等价于[0-9]
\w : 单词字母,等价于[A-Za-z0-9_]
Re库主要功能函数:
re.search(): 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match(): 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall(): 搜索字符串,以列表类型返回全部能匹配的子串
re.split(): 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer(): 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub(): 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串
面向对象用法:编译后的多次操作
pat = re.compile(r'[1-9]\d{5}') # 将正则表达式的字符串形式编译成正则表达式对象
rst = pat.search('BIT 100081')
'''
爬虫小练习
最新推荐文章于 2023-04-21 11:54:45 发布