分享一些关于Python爬虫的源码，需要的朋友可以自行领取_爬虫原代码

m0_58397123

于 2024-04-28 02:27:59 发布

阅读量951

点赞数 7

文章标签： python 爬虫 c#

本文链接：https://blog.csdn.net/m0_58397123/article/details/138263255

版权

def page_url_cont():
    # 可以传入2个变量,一个用于搜索关键字,一个用于翻页
    # queryWord   word    对应关键字
    # pn 对应翻页
    data = {‘tn’: ‘resultjson_com’,
            ‘ipn’: ‘rj’,
            ‘ct’: ‘201326592’,
            ‘is’: ‘’,
            ‘fp’: ‘result’,
            ‘queryWord’: ‘美女’,
            ‘cl’: 2,
            ‘lm’: -1,
            ‘ie’: ‘utf-8’,
            ‘oe’: ‘utf-8’,
            ‘adpicid’:‘’,
            ‘st’: ‘-1’,
            ‘z’: ‘’,
            ‘ic’: 0,
            ‘word’: ‘美女’,
            ‘s’: ‘’,
            ‘se’: ‘’,
            ‘tab’: ‘’,
            ‘width’: ‘’,
            ‘height’: ‘’,
            ‘face’: 0,
            ‘istype’: 2,
            ‘qc’: ‘’,
            ‘nc’: 1,
            ‘fr’: ‘’,
            ‘pn’: 0,
            ‘rn’: 30,
            ‘gsm’: 96
            }
    # 拼接url
    url = ‘http://image.baidu.com/search/index?’ + urlencode(data)

# 返回拼接好的url
return url

# 获取图片链接返回一个列表
def get_images_url(response):
    # 用jsondata保存用json.loads的方法处理返回回来的类似字典的格式
    jsondata = json.loads(response.text)
    # 创建一个空的列表,用于处理提取出来的Url
    image_url = []
    # 检查字典里是否包含data这个关键字
    if ‘data’ in jsondata.keys():
        # 从字典里面提取出data这个键的值
        for items in jsondata.get(‘data’):
            # 从items这个自动中提取thumbURL的值,返回一个url
            url = items.get(‘thumbURL’)
            # 空列表添加提取出来的url
            image_url.append(url)
    # 添加完成后统一返回
    return image_url

# 下载用的函数
def downimage(image_url):
    # 从我们传入的url列表重依次取出url
    for url in image_url:
        # 异常处理
        try:
            # 请求我们图片地址得到返回
            response = requests.get(url)
            # 判断响应码
            if response.status_code == 200:
                # 用切片的方法给图片命名
                name = url.split(‘,’)[-1].split(‘&’)[0]
                # 以字节的方式读取读取数据
                image = response.content
                # 创建一个空白的文件,以二进制的方式写入数据
                # 给创建出来的这个文件取个别名叫f
                with open(‘./images/%s.jpg’ % name, ‘wb’) as f:
                    # 写入我们的2进制数据
                    f.write(image)
        except:
            print(‘当前请求出错’)

def main():
    url = page_url_cont()
    # 获得的响应被赋值  GEI请求赋值
    response = requests.get(url)
    # 用json格式读取返回的文本数据
    # print(jsondata.keys())
    image_url = get_images_url(response)
    # print(image_url)
    # 传入我们的下载器
    downimage(image_url)

if name == ‘main’:
main()


 


**利用Python批量下载斗图网表情包**

# encoding: utf-8
# 第一步：导入第三方库
import requests  # 请求网页
from lxml import etree  # 解析网页
from urllib import request  # 下载内容
import os  # 系统包

# 第二步：抓取目标网页
def parse_page(url):
    # 2.1简单的反爬虫机制
    HEADERS = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36’}
    # 2.2获取服务器响应
        # 获取请求响应的状态码
    response = requests.get(url, headers=HEADERS)
    # 2.3 从响应里提取出网页
        # 获取整个网页
    text = response.text
        # 将抓取的网页作为参数返回
    return text
# 第三步：解析网页获取数据
def page_list(text):
    # 3.1 将网页保存在HTML对象里
    html = etree.HTML(text)  # 把网页保存在HTML对象里，便于对数据进行提取
    # 3.2 从网页对象根据一定的规则提取数据
    imgs = html.xpath(“//div[@class=‘page-content text-center’]//a//img”)
    # 获取所有的表情图片以对象的形式保存在列表里
    return imgs

def main():
    # 根据URL的规则对URL进行循环，获取多页URL，并传给parse_page()进行抓取数据
    for x in range(1, 11):
        url = “http://www.doutula.com/photo/list/?page=%d” % x
        # 调用parse_page()函数并把url给进去
        text=parse_page(url)
        # 接收parse_page()返回的网页，并传给page_list()函数进行解析
        imgs = page_list(text)
        # 3.3 对列表里的img对象进行提取
        for img in imgs:
            # try… except    对程序进行异常处理，避免因为其他原因报错
            try:
                # 3.4获取所有表情的URL并保存在列表里
                imgurl = img.xpath(“.//@data-original”)
                # 3.5从列表里提取出表情的URL，至于为啥不取零，列表中有空值，取零报错
                for img_url in imgurl:
                    # print(img_url)
                    # 分割后缀名：.jpg .png
                    # 3.6对表情的URL进行处理，提取出表情图片的格式，用于组成表情的名字
                    suffix = os.path.splitext(img_url)[1]
                    suffix = suffix.split(“!”)[0]

# 3.7获取表情的名字
                    alt = img.xpath(“.//@alt”)[0]
                    # alt = re.sub(r’[，。？?,/\·]‘,’',alt)  #利用正则表达式对表情名字中存在的特殊字符进行处理
                    # 3.8用 alt+suffix组成表情的新名字
                    img_name = alt + suffix

# 第四步：计算机代替下载
                    # 使用request.urlretrieve()对表情进行下载并保存在images文件里
                    request.urlretrieve(img_url, ‘images/’ + img_name)
                    # 打印出那些表情已经下载
                    print(img_name + ‘下载完毕！’)

except:
print(“表情报错”)

# 执行函数
if name == ‘main’:
main()


 


**模拟登陆京东**

# -- coding:utf-8 --

import time
import requests
from bs4 import BeautifulSoup

class JD_crawl:
    def init(self, username, password):
        self.headers = {
                        ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
                                      ’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
                        ‘Referer’: ‘https://www.jd.com/’,
                        }
        self.login_url = “https://passport.jd.com/new/login.aspx”
        self.post_url = “https://passport.jd.com/uc/loginService”
        self.auth_url = “https://passport.jd.com/uc/showAuthCode”
        self.session = requests.session()
        self.username = username
        self.password = password

def get_login_info(self):
html = self.session.get(self.login_url, headers=self.headers).content
soup = BeautifulSoup(html, ‘lxml’)

uuid = soup.select(‘#uuid’)[0].get(‘value’)
        eid = soup.select(‘#eid’)[0].get(‘value’)
        fp = soup.select(‘input[name=“fp”]’)[0].get(‘value’)  # session id
        _t = soup.select(‘input[name=“_t”]’)[0].get(‘value’)  # token
        login_type = soup.select(‘input[name=“loginType”]’)[0].get(‘value’)
        pub_key = soup.select(‘input[name=“pubKey”]’)[0].get(‘value’)
        sa_token = soup.select(‘input[name=“sa_token”]’)[0].get(‘value’)

auth_page = self.session.post(self.auth_url,
                                      data={‘loginName’: self.username, ‘nloginpwd’: self.password}).text
        if ‘true’ in auth_page:
            auth_code_url = soup.select(‘#JD_Verification1’)[0].get(‘src2’)
            auth_code = str(self.get_auth_img(auth_code_url))
        else:
            auth_code = ‘’

data = {
            ‘uuid’: uuid,
            ‘eid’: eid,
            ‘fp’: fp,
            ‘_t’: _t,
            ‘loginType’: login_type,
            ‘loginname’: self.username,
            ‘nloginpwd’: self.password,
            ‘chkRememberMe’: True,
            ‘pubKey’: pub_key,
            ‘sa_token’: sa_token,
            ‘authcode’: auth_code
            }
        return data

def get_auth_img(self, url):
        auth_code_url = ‘http:{}&yys={}’.format(url, str(int(time.time()*1000)))
        auth_img = self.session.get(auth_code_url, headers=self.headers)
        with open(‘authcode.jpg’, ‘wb’) as f:
            f.write(auth_img.content)
        code_typein = input(‘请根据下载图片输入验证码：’)
        return code_typein

def login(self):
        data = self.get_login_info()
        headers = {
                    ‘Referer’: self.post_url,
                    ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36’
                                  ’ (KHTML, like Gecko) Chrome/62.0.3202.89 Safari/537.36’,
                    ‘X-Requested-With’: ‘XMLHttpRequest’
                  }
        try:
            login_page = self.session.post(self.post_url, data=data, headers=headers)
            print(login_page.text)
        except Exception as e:
            print(e)

# self.session.cookies.clear()

def shopping(self):
login = self.session.post(‘https://cart.jd.com/cart.action’, headers=self.headers)
print(login.text)

if name == ‘main’:
    un = input(‘请输入京东账号：’)
    pwd = input(‘请输入京东密码：’)
    jd = JD_crawl(un, pwd)
    jd.login()
    jd.shopping()


 


**利用Python爬取喜马拉雅音频文件**

import re
import requests
from lxml import etree
from onexima import Xima

def get_id():
    “”“获取排行榜每一本书的信息”“”
    main_url = “https://www.ximalaya.com/shangye/top/”
    headers = {
        “User-Agent”: “Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36”
    }
    r = requests.get(main_url, headers=headers)
    # 获取到当前页面的xml数据
    html = etree.HTML(r.content.decode())
    # 得到每一本书的位置的信息
    div_list = html.xpath(“//div[contains(@class,‘e-2997888007 rrc-album-item’)]”)
    all_lsit = []  # 待会把每一本书的音频以字典形式放进列表当中
    for div in div_list:
        author = {}  # 创建一个列表, 我们要获取书的id和书的名字, 并且一一对应
        r = div.xpath(“./a/@href”)[0]  # 获取到当前书的id所在信息, 数据为: /renwen/4859823/
        print®
        # 所以得通过正则把正确的id取出来, id是为了传入正确的id, 得到正确的json数据
        author[‘id’] = re.search(r’/.?/(.)/', r).group(1)
        author[‘book_name’] = div.xpath(“./a/div[3]/div[1]/span/text()”)[0]
        # 向列表中传入每一个音频的信息
        all_lsit.append(author)
    print(all_lsit)
    return all_lsit