山东大学创新项目实训个人工作日志（七）

最新推荐文章于 2024-06-23 19:45:18 发布

afyzju

最新推荐文章于 2024-06-23 19:45:18 发布

阅读量78

点赞数

本文链接：https://blog.csdn.net/afyzju/article/details/115983750

版权

网络爬虫 JSON解析正则表达式去哪儿网门票信息

关键词由CSDN通过智能技术生成

基本完成了对去哪儿网的门票信息的爬取。

首先通过选取城市的界面得到所有城市的ID，因为去哪儿网采用的ID直接是城市名称的汉字，但是如果直接输入城市，可能会和网站规定的名称不一致，所以提前进行了爬取，并把它保存在列表之中，使用的时候直接利用模糊搜索（fuzzywuzzy库）搜索出即可。

在爬取去哪儿网的过程中，遇到的最大问题就是如何根据景点来获取所有的门票信息，通过在网页的开发者模式下观察，我发现在加载景点详细页面的时候，有一个getTicket.json的一个json格式的页面被加载，而里面恰好就是所有门票的详细信息，而该页面的请求需要传入参数sightId。

所以问题就成了sightId该去哪找，去搜索结果浏览页面查询源代码，发现网页源代码中并没有该类信息，最后发现是在该页面的JavaScript代码之中，所以通过正则表达式re匹配：

f = re.search(re.compile('"sightId": "(.*)"'), html).group()
f = "{"+f+"}"
g = json.loads(f)
return g['sightId']

即可查询出，然后将其加在网页请求中，返回的就是门票的json信息了，剩下的工作就是从中抽取出我们所需要的东西并进行整合了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

afyzju

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

山东大学创新项目实训个人工作日志（一）

4j的博客

06-20

147

初识slam，理解了一个视觉 SLAM 框架由哪几个模块组成，各模块的任务是什么。学习了《视觉slam十四讲》的第一讲。搭建编程环境，为开发和实验做准备。三维空间刚体运动，尽量学习第四讲。

山东大学创新项目实训个人工作日志（六）

afyzju的博客

04-20

115

完成了在携程网站爬取指定城市的特色美食的功能。具体方式是输入用户所选择的城市，然后就可以返回一系列的特色美食的信息。首先是爬取携程的所有城市的ID，并把它保存在一个列表中，用户指定城市后就可以直接从中取出，然后访问到指定城市的页面。获取城市ID： def getCityList(self): html = self.getHtml('https://piao.ctrip.com/ticket/?districtid=1') soup = BS(html, "ht

参与评论您还未登录，请先登录后发表或查看评论

山东大学创新项目实训个人工作日志（八）

afyzju的博客

05-08

213

携程

山东大学创新项目实训个人工作日志（五）

afyzju的博客

04-19

完成了对途牛景点门票的爬取。主要实现的功能就是输入用户的关键词和用户所在的城市（或者选择的城市），就可以搜索出相应的景点所对应的门票的信息来。通过观察可以发现，途牛和大众点评有个相同点，就是它们对每个城市都有一个独立的网站，而我们只要获取了那个网址，就可以实现定位，但是城市一般都是缩写，而且没有什么规律，所以我采用的办法是从主页选择城市的页面的源代码中提取出所有的城市href，然后保存在一个字典数据结构中，这样下次再想用的时候直接查询即可。同时加入了模糊查询功能，因为城市有的带“市”字，而有的不带，所以

山东大学创新项目实训个人工作日志（二十一）

afyzju的博客

06-04

100

测试与修改

山东大学创新项目实训个人工作日志（十八）

afyzju的博客

06-02

110

景点门票爬取的速度提升

山东大学创新项目实训个人工作日志（十六）

afyzju的博客

05-30

107

景点门票数据的整合

山东大学创新项目实训个人工作日志（三）

afyzju的博客

04-15

149

主要在完成的工作是爬虫的实现，爬取的网站是大众点评，主要使用了python的requests和BeautifulSoup库。通过解析网站源码可以发现，每个城市都拥有一个网站，而这些网站都可以在选择城市的页面找到，所以通过它获取城市列表，然后根据用户的城市进入相应的网页，在团购网站上进行搜索操作，可以检索出优惠信息。比较麻烦的是详情页面需要登录，这点采用了cookie实现。大众点评的价格信息以及其他的数字信息都是加密之后的，所以之后几天的工作就是把这一部分解码出来，然后对优惠信息进行汇总。 ...

山东大学创新项目实训个人工作日志（四）

afyzju的博客

04-17

118

完成了对大众点评优惠信息

齐鲁软件学院2020级暑假项目实训要求

09-17

实训分为创新项目实训和企业项目实训两种形式，学生可自主选择参与方式。 1. 实训目标与原则： - 实训以项目为载体，采用工程化方法进行，覆盖了软件项目开发的主要阶段，让学生了解并实践软件开发流程。 - 学生...

实训项目日志（一）——剧本规划

learnjava22的博客

06-02

743

剧本规划本篇日志主要有以下几个内容：剧本要求自己的脚本老师选出的脚本反复修改后的最终版本我们本次实训的项目是制作山东大学软件学院的招生宣传片，目的是以我们学生的视角展现出软件学院的特色，要与一般的讲述性的较为死板的宣传片不一样，体现出软件学院的创新性。在最开始的时候我们先开了会议，指导老师向我们说明了本次宣传片的制作要求与期望。在满足学院提出的要求的同时，我们可以进行创新，以一种...

2020级暑假项目实训：软件学院新要求与实施规划

实训包括创新项目实训和企业项目实训两种形式，学生可自由选择。实训时间为2023年6月19日至7月16日，期间需要进行严格的考勤管理，如出现超过规定次数的缺勤，将影响最终成绩。实训地点主要在软件园校区，创新项目实...

山东大学软件学院创新实训：角色疆界 - 智能电影角色扮演对话大模型（三）

z1123592075的博客

06-23

755

因为实验室服务器安全配置与其网络拓扑结构限制等原因，docker的端口默认只开放对应用户的ssh端口，其他端口能开放，但在服务器外网中无法访问该端口。于是我们最开始选择的是内网穿透的形式将实验室服务器的端口暴露出来，供前端访问。

rhino grasshoper平面线生造型.gh

最新发布

10-18

【rhino@grasshoper 平面线生造型】https://www.bilibili.com/video/BV1kbpZeUE6d?vd_source=b420114c993138474d2e93d83ead77a5

Webapp_rimw_ebapp协助投资者评估A股上市公司.zip

10-18

Webapp_rimw_ebapp协助投资者评估A股上市公司

Linux笔记1111

10-18

Linux笔记1111

CentOS批量自动化修改服务器等保基线操作脚本

10-18

本脚本旨在为系统管理员提供一种高效便捷的工具，用于在CentOS服务器上批量自动化修改并配置符合等级保护（等保）要求的系统基线。等保基线是中国网络安全法规中的一部分，要求企业或组织的IT基础设施遵循一系列安全标准。本脚本主要面向需管理大量服务器的环境，尤其是数据中心、企业内部网络、云平台等场景。脚本的功能覆盖多个等保项目中的关键安全项配置，包括但不限于以下内容：密码策略配置：设置密码复杂度要求、密码过期时间、登录失败锁定机制等，以确保密码的安全性。 SSH安全设置：包括禁用root远程登录、更改默认端口、启用密钥认证等，减少被暴力破解或未经授权访问的风险。系统日志审计：配置审计日志的保存策略和周期，确保对系统操作行为进行详细记录，便于日后追踪和分析。审计日志的保留和分析对于等保要求中的安全事件响应至关重要。 4. 端口访问控制：通过自动化调整iptables或firewalld规则，限制不必要的端口暴露，确保服务器只开放所需的最小化服务端口，减少攻击面。 5. 文件权限调整：对系统中的关键文件（如/etc/passwd、/etc/shadow等）进行权限审查和修正，防止敏感数

rhino grasshoper 柜组合系列.gh

10-18

【rhino@GH 材料数据筛选/分组处理】https://www.bilibili.com/video/BV1DE421N7Yz?vd_source=b420114c993138474d2e93d83ead77a5

前端至大数据技术项目源码大全，毕设课设项目实训资源

资源摘要信息:"毕设&课设&项目&实训-山大树洞 SDU Web 技术小组课程作业前端部分.zip" 标题中提到的“毕设&课设&项目&实训-山大树洞 SDU Web 技术小组课程作业前端部分.zip”表明了该资源包主要面向学生进行...