分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫原代码

最新推荐文章于 2024-05-13 03:22:16 发布

程序员世纪末

最新推荐文章于 2024-05-13 03:22:16 发布

阅读量259

点赞数 3

分类专栏：程序员文章标签： python 学习面试

本文链接：https://blog.csdn.net/m0_60721584/article/details/138775093

版权

程序员专栏收录该内容

189 篇文章 0 订阅

订阅专栏

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费学习大礼包，带大家一起学习，给大家剖析Python兼职、就业行情前景的这些事儿。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、学习软件

工欲善其必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

四、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

五、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

成为一个Python程序员专家或许需要花费数年时间，但是打下坚实的基础只要几周就可以，如果你按照我提供的学习路线以及资料有意识地去实践，你就有很大可能成功！
最后祝你好运！！！

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

response = requests.get(url, headers=HEADERS)
    # 2.3 从响应里提取出网页
        # 获取整个网页
    text = response.text
        # 将抓取的网页作为参数返回
    return text
# 第三步：解析网页获取数据
def page_list(text):
    # 3.1 将网页保存在HTML对象里
    html = etree.HTML(text)  # 把网页保存在HTML对象里，便于对数据进行提取
    # 3.2 从网页对象根据一定的规则提取数据
    imgs = html.xpath(“//div[@class=‘page-content text-center’]//a//img”)
    # 获取所有的表情图片以对象的形式保存在列表里
    return imgs

def main():
    # 根据URL的规则对URL进行循环，获取多页URL，并传给parse_page()进行抓取数据
    for x in range(1, 11):
        url = “http://www.doutula.com/photo/list/?page=%d” % x
        # 调用parse_page()函数并把url给进去
        text=parse_page(url)
        # 接收parse_page()返回的网页，并传给page_list()函数进行解析
        imgs = page_list(text)
        # 3.3 对列表里的img对象进行提取
        for img in imgs:
            # try… except    对程序进行异常处理，避免因为其他原因报错
            try:
                # 3.4获取所有表情的URL并保存在列表里
                imgurl = img.xpath(“.//@data-original”)
                # 3.5从列表里提取出表情的URL，至于为啥不取零，列表中有空值，取零报错
                for img_url in imgurl:
                    # print(img_url)
                    # 分割后缀名：.jpg .png
                    # 3.6对表情的URL进行处理，提取出表情图片的格式，用于组成表情的名字
                    suffix = os.path.splitext(img_url)[1]
                    suffix = suffix.split(“!”)[0]

# 3.7获取表情的名字
                    alt = img.xpath(“.//@alt”)[0]
                    # alt = re.sub(r’[，。？?,/\·]‘,’',alt)  #利用正则表达式对表情名字中存在的特殊字符进行处理
                    # 3.8用 alt+suffix组成表情的新名字
                    img_name = alt + suffix

# 第四步：计算机代替下载
                    # 使用request.urlretrieve()对表情进行下载并保存在images文件里
                    request.urlretrieve(img_url, ‘images/’ + img_name)
                    # 打印出那些表情已经下载
                    print(img_name + ‘下载完毕！’)

except:
print(“表情报错”)

# 执行函数
if name == ‘main’:
main()


 


**模拟登陆京东**

# -- coding:utf-8 --

import time
import requests
from bs4 import BeautifulSoup

class JD_crawl:
    def init(self, username, password):
        self.headers = {
                        ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
                                      ’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
                        ‘Referer’: ‘https://www.jd.com/’,
                        }
        self.login_url = “https://passport.jd.com/new/login.aspx”
        self.post_url = “https://passport.jd.com/uc/loginService”
        self.auth_url = “https://passport.jd.com/uc/showAuthCode”
        self.session = requests.session()
        self.username = username
        self.password = password

def get_login_info(self):
html = self.session.get(self.login_url, headers=self.headers).content
soup = BeautifulSoup(html, ‘lxml’)

uuid = soup.select(‘#uuid’)[0].get(‘value’)
        eid = soup.select(‘#eid’)[0].get(‘value’)
        fp = soup.select(‘input[name=“fp”]’)[0].get(‘value’)  # session id
        _t = soup.select(‘input[name=“_t”]’)[0].get(‘value’)  # token
        login_type = soup.select(‘input[name=“loginType”]’)[0].get(‘value’)
        pub_key = soup.select(‘input[name=“pubKey”]’)[0].get(‘value’)
        sa_token = soup.select(‘input[name=“sa_token”]’)[0].get(‘value’)

auth_page = self.session.post(self.auth_url,
                                      data={‘loginName’: self.username, ‘nloginpwd’: self.password}).text
        if ‘true’ in auth_page:
            auth_code_url = soup.select(‘#JD_Verification1’)[0].get(‘src2’)
            auth_code = str(self.get_auth_img(auth_code_url))
        else:
            auth_code = ‘’

data = {
            ‘uuid’: uuid,
            ‘eid’: eid,
            ‘fp’: fp,
            ‘_t’: _t,
            ‘loginType’: login_type,
            ‘loginname’: self.username,
            ‘nloginpwd’: self.password,
            ‘chkRememberMe’: True,
            ‘pubKey’: pub_key,
            ‘sa_token’: sa_token,
            ‘authcode’: auth_code
            }
        return data

def get_auth_img(self, url):
        auth_code_url = ‘http:{}&yys={}’.format(url, str(int(time.time()*1000)))
        auth_img = self.session.get(auth_code_url, headers=self.headers)
        with open(‘authcode.jpg’, ‘wb’) as f:
            f.write(auth_img.content)
        code_typein = input(‘请根据下载图片输入验证码：’)
        return code_typein

def login(self):
        data = self.get_login_info()
        headers = {
                    ‘Referer’: self.post_url,
                    ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
                                  ’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
                    ‘X-Requested-With’: ‘XMLHttpRequest’
                  }
        try:
            login_page = self.session.post(self.post_url, data=data, headers=headers)
            print(login_page.text)
        except Exception as e:
            print(e)

# self.session.cookies.clear()

def shopping(self):
login = self.session.post(‘https://cart.jd.com/cart.action’, headers=self.headers)
print(login.text)

if name == ‘main’:
    un = input(‘请输入京东账号：’)
    pwd = input(‘请输入京东密码：’)
    jd = JD_crawl(un, pwd)
    jd.login()
    jd.shopping()


 


**利用Python爬取喜马拉雅音频文件**

import re
import requests
from lxml import etree
from onexima import Xima

def get_id():
    “”“获取排行榜每一本书的信息”“”
    main_url = “https://www.ximalaya.com/shangye/top/”
    headers = {
        “User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36”
    }
    r = requests.get(main_url, headers=headers)
    # 获取到当前页面的xml数据
    html = etree.HTML(r.content.decode())
    # 得到每一本书的位置的信息
    div_list = html.xpath(“//div[contains(@class,‘e-2997888007 rrc-album-item’)]”)
    all_lsit = []  # 待会把每一本书的音频以字典形式放进列表当中
    for div in div_list:
        author = {}  # 创建一个列表, 我们要获取书的id和书的名字, 并且一一对应
        r = div.xpath(“./a/@href”)[0]  # 获取到当前书的id所在信息, 数据为: /renwen/4859823/
        print®
        # 所以得通过正则把正确的id取出来, id是为了传入正确的id, 得到正确的json数据
        author[‘id’] = re.search(r’/.?/(.)/', r).group(1)
        author[‘book_name’] = div.xpath(“./a/div[3]/div[1]/span/text()”)[0]
        # 向列表中传入每一个音频的信息
        all_lsit.append(author)
    print(all_lsit)
    return all_lsit

# 调用函数得到所有每一本书的信息, 是一个列表类型
all_lsit = get_id()
for i in all_lsit:
    # 遍历列表, 把每本书对应的id和对应的书名传到类里面去
    x = Xima(i[‘id’], i[‘book_name’])
    x.run()


 


**利用Python爬取妹子图**

import requests
from bs4 import BeautifulSoup
import os
import re

Hostreferer = {
    ‘User-Agent’:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)’,
    ‘Referer’:‘http://www.mzitu.com’
}
Picreferer = {
    ‘User-Agent’:‘Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)’,
    ‘Referer’:‘http://i.meizitu.net’
}

def get_page_name(url):#获得图集最大页数和名称
    html = get_html(url)
    soup = BeautifulSoup(html, ‘lxml’)
    span = soup.findAll(‘span’)
    title = soup.find(‘h2’, class_=“main-title”)
    return span[10].text, title.text

def get_html(url):#获得页面html代码
    req = requests.get(url, headers=Hostreferer)
    html = req.text
    return html

def get_img_url(url, name):
    html = get_html(url)
    soup = BeautifulSoup(html, ‘lxml’)
    img_url = soup.find(‘img’, alt= name)
    return img_url[‘src’]

def save_img(img_url, count, name):
    req = requests.get(img_url, headers=Picreferer)
    new_name = rename(name)
    with open(new_name+‘/’+str(count)+‘.jpg’, ‘wb’) as f:
        f.write(req.content)

def rename(name):
    rstr = r’[/\😗?<>|]’
    new_name = re.sub(rstr, “”, name)
    return new_name

def save_one_atlas(old_url):
    page, name = get_page_name(old_url)
    new_name = rename(name)
    os.mkdir(new_name)

print(“图集–” + name + “–开始保存”)
    for i in range(1, int(page)+1):
        url = old_url + “/” + str(i)
        img_url = get_img_url(url, name)
        # print(img_url)
        save_img(img_url, i, name)
        print(‘正在保存第’ + str(i) + ‘张图片’)
    print(“图集–” + name + “保存成功”)

def get_atlas_list(url):
    req = requests.get(url, headers=Hostreferer)
    soup = BeautifulSoup(req.text, ‘lxml’)
    atlas = soup.find_all(attrs={‘class’:‘lazy’})
    atlas_list = []
    for atla in atlas:
        atlas_list.append(atla.parent[‘href’])
    return atlas_list

def save_one_page(start_url):
    atlas_url = get_atlas_list(start_url)
    for url in atlas_url:
        save_one_atlas(url)

if name == ‘main’:
    start_url = “http://www.mzitu.com/”
    for count in range(1, 3):
        url = start_url + “page/” + str(count) +“/”
        save_one_page(url)
    print(“爬取完成”)


 


**Python制作微信朋友圈九宫图**

from PIL import Image
import sys
#先将 input image 填充为正方形
def fill_image(image):
    width, height = image.size
    #选取长和宽中较大值作为新图片的
    new_image_length = width if width > height else height
    #生成新图片[白底]
    new_image = Image.new(image.mode, (new_image_length, new_image_length), color=‘white’)   #注意这个函数！
    #将之前的图粘贴在新图上，居中
    if width > height:#原图宽大于高，则填充图片的竖直维度  #(x,y)二元组表示粘贴上图相对下图的起始位置,是个坐标点。
        new_image.paste(image, (0, int((new_image_length - height) / 2)))
    else:
        new_image.paste(image, (int((new_image_length - width) / 2),0))
    return new_image
def cut_image(image):
    width, height = image.size
    item_width = int(width / 3)  #因为朋友圈一行放3张图。
    box_list = []
    # (left, upper, right, lower)
    for i in range(0,3):
        for j in range(0,3):
            #print((iitem_width,jitem_width,(i+1)item_width,(j+1)item_width))
            box = (jitem_width,iitem_width,(j+1)*item_width,(i+1)*item_width)
            box_list.append(box)
    image_list = [image.crop(box) for box in box_list]
    return image_list
#保存
def save_images(image_list):
    index = 1

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

需要这份系统化学习资料的朋友，可以戳这里获取

程序员世纪末

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫原代码

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫