使用正则表达式,取得点击次数,函数抽离

学会使用正则表达式

1. 用正则表达式判定邮箱是否输入正确。

import re
r = "^(\w)+([-+_.]\w+)*@(\w)+((\.\w{2,4}){1,3})$"
e = "757036111@qq.com"
if re.match(r,e):
print(re.match(r, e).group(0))
else:
print("error!")

 

2. 用正则表达式识别出全部电话号码。

import re
str = "版权所有:广州商学院   地址:广州市黄埔区九龙大道206号" \
      "学校学士办公室:020-82876130   学士招生电话:020-82872773" \
      "学校硕士办公室:020-82876131   硕士招生电话:020-82872774" \
      "粤公网安备 44011602000060号    粤ICP备15103669号"
numbers = re.findall("(\d{3,4})-(\d{6,8})", str)
print(numbers)

 

3. 用正则表达式进行英文分词。re.split('',news)

import re
news = "ARE? YOU KIDDING ME ? " \
       "NO, IM SERIOUS."
word = re.split("[\s,.?\-]+", news)
print(word)

 

4. 使用正则表达式取得新闻编号

import re
url = "http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1225/8854.html"
newsId = re.findall("\_(.*).html", url)[0].split("/")[-1]
print(newsId)

 

5. 生成点击次数的Request URL

Rurl = "http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80".format(newsId)
print(Rurl)

 

6. 获取点击次数

res = requests.get("http://oa.gzcc.cn/api.php?op=count&id={}&modelid=80".format(newsId))
print(int(res.text.split(".html")[-1].lstrip("('").rsplit("');")[0]))

 

7. 将456步骤定义成一个函数 def getClickCount(newsUrl):

8. 将获取新闻详情的代码定义成一个函数 def getNewDetail(newsUrl):

9. 取出一个新闻列表页的全部新闻 包装成函数def getListPage(pageUrl):

10. 获取总的新闻篇数,算出新闻总页数包装成函数def getPageN():

11. 获取全部新闻列表页的全部新闻详情。

 

import requests
import re

from bs4 import BeautifulSoup
from datetime import datetime

url = "http://news.gzcc.cn/html/xiaoyuanxinwen/"
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser')


def getClickCount(newsUrl):
newId = re.search('\_(.*).html', newsUrl).group(1).split('/')[-1]
clickUrl = 'http://oa.gzcc.cn/api.php?op=count&id=9172&modelid=80'
rest = requests.get(clickUrl).text.split('.html')[-1].lstrip("('").rstrip("');")
print("新闻编号:", newId)
print("新闻点击次数URL:", clickUrl)
print("新闻点击次数:", rest)

def getNewDetail(Url):
for news in soup.select('li'):
if len(news.select('.news-list-title'))>0:
t1=news.select('.news-list-title')[0].text
d1=news.select('.news-list-description')[0].text
a1=news.select('a')[0].attrs['href']

res = requests.get(a1)
res.encoding = 'utf-8'
soupd = BeautifulSoup(res.text, 'html.parser')
c1=soupd.select('#content')[0].text
info=soupd.select('.show-info')[0].text
print("新闻标题:", t1)
print("新闻链接:", a1)
print("新闻详情:", c1)
resd = requests.get(a1)
resd.encoding = 'utf-8'
soupd = BeautifulSoup(resd.text, 'html.parser')
time = soupd.select('.show-info')[0].text[0:24].lstrip('发布时间:')
dt = datetime.strptime(time, '%Y-%m-%d %H:%M:%S')
print("新闻发布时间:", dt)

author=info[info.find('作者'):].split()[0].lstrip('作者:')
fromwhere = info[info.find('来源'):].split()[0].lstrip('来源:')
photo = info[info.find('摄影'):].split()[0].lstrip('摄影:')

print("新闻作者:", author)
print("新闻来源:", fromwhere)
print("新闻摄影:", photo)
getClickCount(a1)

def getPage(url):
return int(soup.select('.a1')[0].text.rstrip('条'))//10+1

def getlist(url):
for i in soup.select('li'):
if len(i.select('.news-list-title')) > 0:
place = i.select('.news-list-info')[0].contents[1].text # 获取来源
title = i.select('.news-list-title')[0].text # 获取标题
description = i.select('.news-list-description')[0].text # 获取描述
detailurl = i.select('a')[0].attrs['href'] # 获取链接
print("来源:" + place)
print("新闻标题:" + title)
print("新闻描述:" + description)
print("新闻链接:" + detailurl)

def getall(url):
for num in range(2,getPage(url)):
listpageurl="http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html".format(num)
getlist(listpageurl)
getNewDetail(listpageurl)

getall(url)

 

转载于:https://www.cnblogs.com/lmq757036131/p/8798417.html

【基于Python的大麦网自动抢票工具的设计与实现】 随着互联网技术的发展,网络购票已经成为人们生活中不可或缺的一部分。尤其是在文化娱乐领域,如音乐会、演唱会、戏剧等活动中,热门演出的门票往往在开售后瞬间就被抢购一空。为了解决这个问题,本论文探讨了一种基于Python的自动抢票工具的设计与实现,旨在提高购票的成功率,减轻用户手动抢票的压力。 Python作为一种高级编程语言,因其简洁明了的语法和丰富的第三方库,成为了开发自动化工具的理想选择。Python的特性使得开发过程高效且易于维护。本论文深入介绍了Python语言的基础知识,包括数据类型、控制结构、函数以及模块化编程思想,这些都是构建抢票工具的基础。 自动化工具在现代社会中广泛应用,尤其在网络爬虫、自动化测试等领域。在抢票工具的设计中,主要利用了自动化工具的模拟用户行为、数据解析和定时任务等功能。本论文详细阐述了如何使用Python中的Selenium库来模拟浏览器操作,通过识别网页元素、触发事件,实现对大麦网购票流程的自动化控制。同时,还讨论了BeautifulSoup和requests库在抓取和解析网页数据中的应用。 大麦网作为国内知名的票务平台,其网站结构和购票流程对于抢票工具的实现至关重要。论文中介绍了大麦网的基本情况,包括其业务模式、用户界面特点以及购票流程,为工具的设计提供了实际背景。 在系统需求分析部分,功能需求主要集中在自动登录、监控余票、自动下单和异常处理等方面。抢票工具需要能够自动填充用户信息,实时监控目标演出的票务状态,并在有票时立即下单。此外,为了应对可能出现的网络延迟或服务器错误,工具还需要具备一定的错误恢复能力。性能需求则关注工具的响应速度和稳定性,要求在大量用户同时使用时仍能保持高效运行。 在系统设计阶段,论文详细描述了整体架构,包括前端用户界面、后端逻辑处理以及与大麦网交互的部分。在实现过程中,采用了多线程技术以提高并发性,确保在抢票关键环节的快速响应。此外,还引入了异常处理机制,以应对网络故障或程序错误。 测试与优化是确保抢票工具质量的关键步骤。论文中提到了不同场景下的测试策略,如压力测试、功能测试和性能测试,以验证工具的有效性和稳定性。同时,通过对抢票算法的不断优化,提高工具的成功率。 论文讨论了该工具可能带来的社会影响,包括对消费者体验的改善、对黄牛现象的抑制以及可能引发的公平性问题。此外,还提出了未来的研究方向,如增加多平台支持、优化抢票策略以及考虑云服务的集成,以进一步提升抢票工具的实用性。 本论文全面介绍了基于Python的大麦网自动抢票工具的设计与实现,从理论到实践,从需求分析到系统优化,为读者提供了一个完整的开发案例,对于学习Python编程、自动化工具设计以及理解网络购票市场的运作具有重要的参考价值。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值