爬虫小练习

最新推荐文章于 2023-04-21 11:54:45 发布

风清俊

最新推荐文章于 2023-04-21 11:54:45 发布

阅读量183

点赞数

分类专栏： # 爬虫

本文链接：https://blog.csdn.net/weixin_43447957/article/details/104786045

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

# 1、斗图网的爬取
import requests
import re
import pymssql
import time
import db  # 将创建的包导入（数据库连接）

# 获取图片列表
def getImagesList(page):
    url = 'https://www.doutula.com/photo/list/?page={}'.format(page)
    html = requests.get(url).text
    # data - original = "http://ww2.sinaimg.cn/bmiddle/9150e4e5gy1gchim9xbv4j20jg0hxaai.jpg"
    # alt = "有被冒犯到"
    reg = r'data-original="(.*?)".*?alt="(.*?)"'  # .*?   :  匹配所有     ()    :  分组匹配
    reg = re.compile(reg, re.S)  # 增加匹配效率         S  ：  多行匹配
    imagesList = re.findall(reg, html)
    for i in imagesList:
        images_url = i[0]
        images_title = i[1]
        # 插入数据
        db.dataBaseOper("insert into dbo.imagesList(imgUrl, imgTitle) values ('%s', '%s')" % (i[0], i[1]))
        print('正在保存:' + i[0])

if __name__ == "__main__":
    startTime = time.time()
    for i in range(13, 15):
        print('爬取第{}页'.format(i))
        getImagesList(i)
        print('第%s页爬取完成' % i)
    endTime = time.time()
    print(f'共耗时:{endTime-startTime} s')


# 2、中国大学排名定向爬虫网页数据
import requests
from bs4 import BeautifulSoup
import re
import bs4
import pandas as pd

# 获取html的内容
def getHtmlText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()  # 若状态码不是200,引发HttpError异常
        r.encoding = r.apparent_encoding  # 修改编码
        return r.text
    except:
        return 'false'

# 将获取指定的内容存放至列表
def fillUnivList(ulist, html):
    soup = BeautifulSoup(html, 'html.parser')
    for tr in soup.find('tbody').children:
        if isinstance(tr, bs4.element.Tag):
            tds = tr('td')
            ulist.append([tds[0].string, tds[1].string, tds[2].string, tds[3].string])

# 打印列表的内容
def printUnivList(ulist, num):
    print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format("排名", "学习名称", "省市", "总分"))
    for i in range(num):
        u = ulist[i]
        print("{:^10}\t{:^6}\t{:^10}\t{:^10}".format(u[0], u[1], u[2], u[3]))

# 打印列表的内容新(优化中文对齐问题,空格填充  chr(12288))
def printUnivListNew(ulist, num):
    tplt = "{0:{4}^10}\t{1:{4}^10}\t{2:{4}^10}\t{3:{4}^10}"    # 占位符
    print(tplt.format("排名", "学校名称", "省市", "总分", chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0], u[1], u[2], u[3], chr(12288)))

# 输出列表的内容至excel中
def outputToExcel(ulist, num):
    df = pd.DataFrame(ulist, columns=['ranking', 'univName', 'provinces', 'scores'])
    df.to_excel("D:\python\数据\原数据\最好大学排名.xlsx", index=False)

if __name__ == '__main__':
    uinfo = []
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
    html = getHtmlText(url)
    fillUnivList(uinfo, html)
    # printUnivList(uinfo, 20)
    printUnivListNew(uinfo, 50)

# 3、python练习册之图片爬取
'''
参考文献：
https://www.cnblogs.com/zyb993963526/p/8337839.html
'''
from urllib import request
from bs4 import BeautifulSoup
import requests
import re
import time

def getImagesListUrl(url):
    html = request.urlopen(url).read().decode('utf-8')
    reg = re.compile(r'<img.*?class="BDE_Image" src="(.*?)".*?>')
    imagesListUrl = re.findall(reg, html)
    return imagesListUrl

# 保存图片1：
def saveFigures(imagesListUrl, savePath):
    count = 1
    for imgUrl in imagesListUrl:
        r = requests.get(imgUrl, stream=True)  # 持续下载
        print(imgUrl.split('/')[-1])
        imgName = '\%s.jpg' % (count)
        count += 1
        with open(savePath+imgName, 'wb') as f:
            for chunk in r.iter_content(chunk_size=32):
                f.write(chunk)
        print(' saved %s' % imgName)

# 保存图片2：快于1
def saveImages(imagesListUrl, savePath):
    count = 1
    for imgUrl in imagesListUrl:
        print(imgUrl.split('/')[-1])
        request.urlretrieve(imgUrl, '%s/%s.jpg' % (savePath, count))
        count += 1
        print(' save \%s.jpg' % count)

# 下载图片： 快于2
def getImages(url, savePath):
    html = request.urlopen(url).read()
    html = html.decode()
    soup = BeautifulSoup(html, 'lxml')
    count = 1
    imgListUrl = soup.findAll("img", class_='BDE_Image')
    for imgUrl in imgListUrl:
        imgUrl = imgUrl['src']
        print(imgUrl.split('/')[-1])
        request.urlretrieve(imgUrl, '%s\%s.jpg' % (savePath, count))
        count += 1
        print(' save %s.jpg' % count)

if __name__ == '__main__':
    startTime = time.time()
    url = "http://tieba.baidu.com/p/2166231880"
    savePath = 'D:\python\数据\爬虫图片'
    # imagesListUrl = getImagesListUrl(url)
    # # saveFigures(imagesListUrl, savePath)  # 84.44
    # saveImages(imagesListUrl, savePath)  # 62
    getImages(url, savePath)  # 48
    endTime = time.time()
    print(f'图片爬取完毕,共耗时{endTime-startTime}')

'''
# 正则表达式： 简洁表达一组字符串表达式   import re
通用的字符串表达框架
简洁表达字符串的表达式
判断某字符串的特征归属

正则表达式的常用操作符：
.   : 表示任何单个字符
[]  : 字符集,对单个字符给出取值范围  [abc] 表示a、b、c  , [a-z] 表示a到z单个字符
[^ ]    : 非字符集,对单个字符给出排除范围 [^abc] 表示非a或b或c的单个字符
*   ： 前一个字符0次或无限次扩展,abc* 表示ab、abc、abcc等   (*前的字符)
+   :  前一个字符1次或无限次扩展,abc+ 表示abc、abcc等
?   :  前一个字符0次或1次扩展,abc? 表示ab、abc
|   ： 左右表达式任意一个, abc|def 表示abc、def
{m} :  扩展前一个字符m次, ab{2}c表示abbc
{m, n}  ：扩展前一个字符m至n次(含n) , ab{1, 2}c表示abc、abbc
^   :  匹配字符串开头,^abc表示abc且在一个字符串的开头
$   :  匹配字符串结尾,abc$表示abc且在一个字符串的结尾
()  :  分组标记,内部只能使用|操作符, (abc)表示abc, (abc|def)表示abc、def
\d  :  数字,等价于[0-9]
\w  :  单词字母,等价于[A-Za-z0-9_]

Re库主要功能函数：
re.search(): 在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象
re.match(): 从一个字符串的开始位置起匹配正则表达式,返回match对象
re.findall(): 搜索字符串,以列表类型返回全部能匹配的子串
re.split()： 将一个字符串按照正则表达式匹配结果进行分割,返回列表类型
re.finditer(): 搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象
re.sub(): 在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

面向对象用法:编译后的多次操作
pat = re.compile(r'[1-9]\d{5}') # 将正则表达式的字符串形式编译成正则表达式对象
rst = pat.search('BIT 100081')

'''

风清俊

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫小练习

import requestsimport reimport pymssqlimport timeimport db # 将创建的包导入（数据库连接）# 获取图片列表def getImagesList(page): url = 'https://www.doutula.com/photo/list/?page={}'.format(page) html = requ...
复制链接

扫一扫