python爬虫-teacher

 

爬取天猫链接

import urllib.request
import re
import random
from openpyxl import Workbook

#获取网页所有数据
def get_html(url):
    #设置请求头
    head={
        'Connection':'keep-alive',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
    }
    # 创建IP列表
    IPlist = ['183.62.196.10:3128', '112.115.57.20:3128']
    #设置代理处理器
    pro=urllib.request.ProxyHandler({'http':random.choice(IPlist)})
    #设置支持http请求的opener对象
    opener=urllib.request.build_opener(pro)

    #遍历字典中的请求头信息,追加在list1列表中
    list1=[]
    for key,value in head.items():
        aa=(key,value)
        list1.append(aa)
    #添加请求头信息
    opener.addheaders=list1
    #向服务器发送请求,并获取响应结果
    r=opener.open(url)
    #读取响应结果
    data=r.read().decode('utf-8')
    return data
urls='https://www.tmall.com'
#获取天猫官网的网页数据
data=get_html(urls)

#清洗数据,提取想要的信息
def get_data(data1):
    #获取网页中的超链接以及文本
    r=re.findall('<a href="(.*?)">(.*?)</a>',data1)
    #保存在excel中
    #创建工作簿
    wb=Workbook()
    #创建工作表
    sheet1=wb.create_sheet('天猫官网链接',0)
    #添加标题
    list1=['编号','链接','名称']
    for i in range(len(list1)):
        sheet1.cell(1,i+1).value=list1[i]

    #添加内容
    #外层循环代表遍历行数,也是列表中元组的个数
    for a in range(len(r)):
        #添加编号
        sheet1.cell(a + 2, 1).value = (a + 1)
        #内层循环代表遍历列数,也是元组中元素的个数
        for b in range(len(r[a])):
            sheet1.cell(a+2,b+2).value=r[a][b]

    wb.save('data/tianmao1.xlsx')
get_data(data)

#t添加到csv文件中

def get_data2(data):
    r = re.findall('<a href="(.*?)">(.*?)</a>', data)
    return r
datalist=get_data2(data)

def saveCsv():
    with open('data/天猫数据.csv','w',newline='') as file:
        aa=csv.writer(file)
        file.write('编号#联接#备注\n')
        aa.writerows(datalist)

        #第二中方法
        file.write('编号#联接#备注\n')
        num =1
        for i in datalist:
            file.write('{}#{}#{}\n'.format(num,i[0],i[1]))
            num+=1
saveCsv()
你可以使用 Python 爬虫来抢选修课。首先,你需要了解选修课的网页结构和相关信息。然后,使用 Python爬虫库(如 BeautifulSoup 或 Scrapy)来获取网页内容,并解析出你需要的课程信息。 以下是一个简单的示例,使用 BeautifulSoup 来爬取选修课信息: ```python import requests from bs4 import BeautifulSoup # 发送 HTTP 请求获取网页内容 url = 'http://example.com/选修课网页' response = requests.get(url) html_content = response.text # 使用 BeautifulSoup 解析网页内容 soup = BeautifulSoup(html_content, 'html.parser') # 根据网页结构和标签选择器定位到选修课信息 course_elements = soup.select('.course') # 假设选修课的 HTML 标签是 class="course" # 处理选修课信息 for course_element in course_elements: course_name = course_element.select_one('.name').text # 假设课程名称的 HTML 标签是 class="name" course_teacher = course_element.select_one('.teacher').text # 假设课程教师的 HTML 标签是 class="teacher" # 其他信息的提取和处理... # 判断是否满足选课条件,然后进行选课操作 if condition_satisfied(course_name, course_teacher): select_course(course_name) # 自定义函数:判断是否满足选课条件 def condition_satisfied(course_name, course_teacher): # 根据自己的需求编写判断逻辑 return True # 或者返回 False # 自定义函数:选课操作 def select_course(course_name): # 编写选课操作的代码 pass ``` 请注意,具体的选修课网页结构和标签选择器可能会因网站不同而有所差异。你需要根据实际情况进行定位和处理。另外,爬虫行为可能涉及到网站的使用规则和法律法规,建议遵守相关规定,并确保不会对网站造成过大的访问压力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值