
Pyhon
文章平均质量分 78
关于python
冷月半明
1/0.
展开
-
时间序列预测神器:用Facebook Prophet轻松填补缺失值与优化预测效果
Prophet 是 Facebook 开发的一种时间序列预测工具,旨在帮助数据科学家快速生成高质量的预测结果。它基于加性回归模型,能够捕捉时间序列中的趋势、季节性和节假日效应。易于使用:Prophet 提供了简洁的 API,用户无需复杂的统计知识即可快速上手。强大的季节性建模:Prophet 能够自动检测并建模年、周、日等不同粒度的季节性。灵活的趋势建模:Prophet 使用分段线性或逻辑增长模型来捕捉趋势变化,并允许用户手动指定变化点。鲁棒性。原创 2025-04-15 09:26:36 · 1071 阅读 · 0 评论 -
Prophet预测波动性实战:5招让你的时间序列曲线“活“起来 破解预测曲线太平滑的行业痛点
在金融交易量预测、电商销量预估等场景中,数据常呈现剧烈波动特征。,尤其在周周期波动明显的场景中,模型甚至会"抹平"周五的高峰!:高阶傅里叶展开需配合。调节,否则会导致过拟合。原创 2025-04-15 09:24:04 · 732 阅读 · 0 评论 -
Python项目打包指南:PyInstaller与SeleniumWire的兼容性挑战及解决方案
在打包依赖冲突:如pyOpenSSL与的版本冲突问题。路径问题:如在运行时未找到或未正确加载。打包文件缺失:某些文件(如.crt.key等)在打包时未包含,导致运行时无法找到。本指南总结了在使用打包 Python 项目时常见的兼容性问题和解决方法。使用兼容的依赖版本,尤其是pyOpenSSL和。将等可执行文件显式添加到.spec文件。在代码中使用以正确引用打包后临时解压目录中的文件。严格遵循这些步骤可以有效避免大多数打包和运行时错误,确保项目在各个环境下稳定运行。原创 2025-04-07 14:31:30 · 931 阅读 · 1 评论 -
Pandas 性能优化:向量化操作 vs. Swifter 加速,谁才是大数据处理的救星?
在数据分析中,我们经常需要对 DataFrame 的每一行或每一列进行操作。例如,计算每行中每列的百分比变化。然而,当数据量较大时,apply()方法的性能可能会成为瓶颈。# 示例 DataFrame})# 计算百分比变化if current!= 0:else:# 应用到前96列上述代码中,apply()方法逐行计算百分比变化。然而,当数据量较大时(例如百万行或更多),这种方法可能会非常慢。优先使用向量化操作向量化操作利用底层优化,避免逐行循环,性能最佳。适用于大规模数据集。使用。原创 2025-04-07 14:24:56 · 631 阅读 · 0 评论 -
打包成.exe的代码与打包不出的爱情:24届码农的魔幻入职年
24年正常毕业,从河南一个二本里完成了自己从学生到社会人士的身份转变,上半年里,一边在广州一家小企业里Python开发实习,一遍修改毕设报告,因为导师要求比较高,报告改了一遍又一遍,但好在没有像去年的学长一样,都在实习了,还被我们这个导师要求请假回学校来改。五六月份的时候,学校举办了毕业典礼,因为广州距离郑州实在太远,就没有请假回来参加,也就是哪一天收到了人生中的第一束花(优秀毕设被院长赠花,可惜人不在场让室友带领)。原创 2025-02-06 14:50:07 · 376 阅读 · 0 评论 -
揭秘数据抓取:用Selenium+Requests打造高效并发爬虫!
在本文中,我们介绍了如何通过结合 Selenium、requests 和线程池等技术高效地进行数据抓取。关键功能模块包括模拟浏览器登录获取所需的请求参数,通过线程池并发处理数据抓取任务,并使用 pandas 将抓取的数据定期保存为 CSV 文件。还讨论了如何使用线程锁来确保多线程环境下的线程安全,防止数据竞争和不一致问题。定期保存数据的策略则有效防止了突发状况导致的数据丢失风险。通过这些技术的结合,能够大大提高数据抓取的效率和稳定性,确保在复杂的内网环境中,数据能够持续、可靠地获取并存储。原创 2024-09-19 16:52:12 · 1743 阅读 · 0 评论 -
高级技巧:使用Selenium WebDriver模拟用户操作防止滑动条验证
滑动条验证是一种常见的前端安全措施,要求用户将滑块拖动到特定位置以证明操作者是人类而非自动化脚本。这种验证对于自动化测试来说是一个挑战,因为它需要模拟人类行为的不确定性和随机性。而对于网站来说经常使用验证会影响用户体验,因此大部分网站只会在检测到有bot风险时才会跳出验证,而我们在操作时可以尽量模拟用户去规避这种风险。通过模拟用户操作,我们可以有效地规避Web页面上的滑动条验证。在实践中,可能需要根据具体的验证机制调整策略。希望本文提供的技巧和示例代码能够帮助大家在自动化测试中更有效地处理滑动条验证。原创 2024-06-21 08:59:12 · 732 阅读 · 0 评论 -
热搜不再错过:用Python打造你的微博热搜追踪器
本博客文章将详细介绍一个关于微博热搜榜简单爬虫程序。该程序的主要功能是自动获取微博热搜榜上的信息,并将这些信息通过邮件发送给用户。requests:用于发送HTTP请求,获取网页内容。:用于解析HTML网页,方便提取所需信息。smtplib:用于发送邮件。和:用于构建邮件的各个部分。:发送HTTP请求,获取网页内容,并返回HTML代码。:解析HTML代码,提取热搜信息,并调用函数发送邮件。:构建邮件的各个部分,并发送邮件。此外,程序还包含一个job()函数,它负责调用和。原创 2024-06-21 08:57:20 · 733 阅读 · 0 评论 -
职业生涯第二课---“前人埋雷,后人踩坑“
在这段半个月的实习生涯中,前几天主动优化自己写的代码,还学到了分布式事物锁,有点沾沾自喜。没想到没过几天就踩到了前人埋下的雷。原创 2024-05-16 09:10:12 · 554 阅读 · 0 评论 -
职业生涯第一课---“Redis分布式锁优化:确保唯一性与效率“
BOSS让我写一些接口,他提出这样一个需求,该接口的参数有多个,其中包含shopname参数,该参数要根据调用者传入的shopname再在后边拼接一个id,作为一个新的字段来作为参数去调用别的接口。而且要保证ID的唯一性。因为BOSS要我写的接口是我们公司内部用的系统的接口,并发量不会太大,但我想万一真有两个人近乎一起用了该接口,该怎样保证获取的id的唯一性。于是就有了下面的经历。原创 2024-05-16 09:09:04 · 507 阅读 · 0 评论 -
爬虫机试题-爬取新闻网站
之前投简历时遇到了这样的一个笔试。本以为会是数据结构算法之类的没想到直接发了一个word直接提需求,感觉挺有意思就写了这篇文章,感兴趣的朋友可以看看。原创 2024-04-15 17:53:39 · 915 阅读 · 0 评论 -
爬取日本常用汉字秘籍
昨天投简历时遇到了这样的一个笔试。本以为会是数据结构算法之类的没想到直接发了一个word直接提需求,感觉挺有意思就写了这篇文章,感兴趣的朋友可以看看。原创 2024-04-08 17:05:25 · 867 阅读 · 0 评论 -
如何用Python解决导师与学生分配的难题?
最近我遇到了一个有趣的问题,我的导师想要提前将下一届的学生分配给各位老师。这听起来似乎没什么大不了的,但实际上,这可是个挺头疼的事情。想象一下,你作为一名导师,要负责领导一群研究生。你希望这些学生和你的研究方向相符,又能发挥他们的潜力。但问题是,如果分配不公平,可能会导致资源浪费,甚至影响到学生的学习和研究。所以,我决定动手写一个随机分配的脚本来解决这个问题。这样一来,分配就不会受到个人喜好或偏见的影响,而是完全随机的,公平而且透明。在这篇博客里,我将和大家分享我的思路和实现过程。原创 2024-04-08 17:03:39 · 1124 阅读 · 0 评论 -
停用词究竟有何妙用:优化分词、精进LDA模型
在自然语言处理领域,文本数据的处理是一项至关重要的任务。而在处理文本数据时,分词是一个必不可少的步骤,它将文本拆分成有意义的词语或短语,为后续的文本分析和挖掘奠定了基础。然而,传统的分词方法往往会将一些并不具备实质信息的词语也一并纳入考量,而这些词语往往被称为停用词。停用词是指在文本处理过程中被忽略的词语,因为它们通常是高频出现且缺乏实际含义的词汇,如“的”、“了”、“和”等。在构建文本分析模型时,停用词的存在可能会干扰模型的准确性和效率,影响到对文本数据的深入理解和挖掘。原创 2024-03-31 10:15:44 · 2040 阅读 · 0 评论 -
精准定制:利用本地词库优化Jieba分词,提升景区评论数据LDA建模效果
在进行景区评论数据的LDA建模时,精确的分词是至关重要的。然而,通用的分词工具在处理特定领域的文本时可能表现不佳。针对这一挑战,本文探讨了如何利用本地词库,特别是搜狗词库中关于旅游领域的专业词汇,对Jieba分词进行精细化调整。通过这种方式,我们可以实现对景区评论数据的更精准、更有效的LDA建模,从而揭示出更深层次的见解和洞察。本文将探讨如何结合本地词库定制词典,优化分词过程,从而提升LDA模型的表现,为景区评论数据的分析与应用提供更可靠的基础。原创 2024-03-30 16:45:33 · 619 阅读 · 0 评论 -
解析旅游者心声:用PySpark和SnowNLP揭秘景区评论的情感秘密
在本文中,我们使用了PySpark和SnowNLP工具对大规模旅游评论数据进行了情感分析。通过连接到Hive数据库,并利用PySpark从中提取数据,我们能够处理大规模的数据集。SnowNLP作为自然语言处理工具,帮助我们进行情感分析,从而揭示了评论中的情感倾向和趋势。我们通过计算每条评论的平均情感值,并将结果存储到新的数据表中。通过合并不同数据表的信息,我们得到了综合的情感分析结果,并进行了展示和持久化存储。原创 2024-03-29 10:33:38 · 1546 阅读 · 0 评论 -
深入Spark与LDA:大规模文本主题分析实战
本篇博客介绍了如何使用LDA(潜在狄利克雷分配)模型和Spark进行文本主题分析。我们的目标是从大量的用户评论中提取出主题。原创 2024-03-28 23:53:32 · 1195 阅读 · 0 评论 -
pyhive入门介绍和实例分析(探索票价与景点评分之间是否存在相关性)
是一组 Python DB-API 和 SQLAlchemy 接口,可用于 Presto 和 Hive。它为 Python 提供了一个与 Presto 和 Hive 进行交互的平台,使得数据分析师和工程师可以更方便地进行数据处理和分析。以下是使用如果你想安装: 使用连接 Hive 数据库非常简单。: 使用: 如果你更喜欢使用进行数据分析,可以将查询结果转换为。原创 2024-03-27 00:23:42 · 873 阅读 · 0 评论 -
使用 PySpark 进行数据清洗与 JSON 格式转换的实践详解(保姆级编码教程)
PySpark 是 Apache Spark 的 Python API,可用于处理大规模数据集。它提供了丰富的功能和库,使得数据清洗和转换变得更加高效和便捷。本文介绍了使用 PySpark 对数据进行清洗和 JSON 格式转换的过程。通过上述步骤,我们可以连接到远程 Spark 服务器,加载数据,应用自定义函数对数据进行清洗和格式转换,并最终保存清洗后的数据。这个流程展示了 PySpark 在数据处理中的强大功能,特别是在大规模数据集的处理和转换方面的优势。原创 2023-12-20 10:41:30 · 2076 阅读 · 0 评论 -
scrapy_redis实战去哪儿旅游信息爬虫(分布式爬虫实例)
Scrapy-Redis 是 Scrapy 框架的一个扩展,用于实现分布式爬取。它基于 Redis 数据库实现了 Scrapy 的调度器、去重集和队列,使得多个爬虫节点可以共享相同的信息,并能够高效地协作。分布式爬取:Scrapy-Redis 允许多个 Scrapy 爬虫实例之间共享爬取队列和去重集合,使得爬取任务可以被多台机器分担,提高爬取效率和速度。基于 Redis 实现的调度器和去重集。原创 2023-12-19 10:45:23 · 2878 阅读 · 0 评论 -
Scrapy+Selenium项目实战--携程旅游信息爬虫
携程(you.ctrip.com)是一个提供旅游信息的网站,但它的部分内容可能是动态加载的,难以直接通过Scrapy获取。这时就需要借助Selenium这样的工具,模拟浏览器行为进行数据的获取和处理。通过Scrapy和Selenium的结合,我们可以构建一个能够有效获取旅游信息的爬虫。但是需要注意,爬虫在实际应用中需要遵守网站的规则,避免对网站造成过大压力或触发反爬机制。以上就是利用Scrapy和Selenium构建旅游信息爬虫的基本流程和实现方法。原创 2023-12-18 13:15:55 · 2276 阅读 · 0 评论 -
深入了解 Scrapy 中的 Pipelines 和 Item
在Scrapy中定义Item类很简单,通常在项目中的items.py文件中创建。# 添加其他字段...原创 2023-12-13 10:37:13 · 702 阅读 · 0 评论 -
探索Scrapy-spider:构建高效网络爬虫
除了以上常用的钩子函数外,我们还可以定义其他自定义的回调函数,用于处理特定页面的响应。例如,可以根据不同类型的页面定义不同的回调函数,以便从中提取数据或执行特定操作。假如我们对于一条数据的提取需要逐条发送多个请求,我们可以这样写:并使用meta存储传递信息。最终的收集完本条数据后返还item去给pip管道处理收集到的信息。原创 2023-12-07 22:00:04 · 434 阅读 · 0 评论 -
初识Scrapy:Python中的网页抓取神器
Scrapy是一个基于Python的快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。它广泛应用于数据挖掘、监测和自动化测试等领域。Scrapy的强大之处在于它是一个框架,可以根据实际需求进行修改和扩展。原创 2023-11-17 17:44:15 · 286 阅读 · 0 评论 -
探索主题建模:使用LDA分析文本主题
主题建模是一种用于从文本数据中提取主题或话题的技术。主题可以被视为文本数据的概括性描述,它们涵盖了文本中的关键概念。主题建模可以应用于各种领域,如文档分类、信息检索、推荐系统等。主题建模是文本挖掘领域的重要技术,可以自动发现文本数据中的主题。LDA是一种常用的主题建模方法,可以通过Python和Gensim库进行实现。通过文本预处理、模型训练和结果分析,可以有效地提取文本数据中的隐藏主题,用于各种应用。原创 2023-11-03 18:05:44 · 12837 阅读 · 5 评论 -
在Flask中实现文件上传七牛云中并下载
文件上传是Web应用中常见的功能之一,而七牛云则提供了强大的云存储服务,使得文件存储和管理变得更加便捷。在本篇博客中,我们将学习如何在Flask应用中实现文件上传,并将上传的文件保存到七牛云。原创 2023-11-03 18:02:47 · 618 阅读 · 0 评论 -
微信自动回复(python)
自从微信禁止网页版登陆之后,itchat 库也就都不能用了,新号不能再登录网页版,而且itchat 库在headers里面只放了UserAgent,其他字段都没有放。所以在你登录的瞬间,微信就已经知道你这个账号没有用浏览器登录了!这篇博客就简单来介绍一个wxauto库来操作微信。原创 2022-12-27 17:43:29 · 8050 阅读 · 11 评论 -
国庆被困校园想出去想疯了_被迫抓包学校微信小程序
国庆假期,一个欢乐的时间段,但对于那些出不去学校的人来说就很难受.出学校有三种方式,人脸识别,扫校园卡,扫微信小程序二维码.很不巧,鄙人三种方式全不可以,于是就只能看着室友们出去浪,只余自己独守空城.酸过之后还是要面对现实,和辅导员沟通后得知还要等工作日才能和相关负责人联系.其中小程序二维码扫不了的原因是开通二维码需要输入消费密码,而消费密码我忘了,小程序里边也没有修改或重置消费密码的入口,刚好又发现输入消费密码进行验证这一步好像没有次数和时间限制,那我何不自己动手抓包写个微信脚本去把密码"莽"出来?原创 2022-10-08 17:10:35 · 774 阅读 · 0 评论 -
创建一个Scrapy爬虫项目并运行
1.在安装好scrapy后,使用scrapy startproject +项目名来创建一个scrapy项目2.进入spilder目录下,使用:scrapy genspider +文件名+网址命令来创建一个爬虫文件原创 2022-04-04 15:24:22 · 2359 阅读 · 0 评论 -
pymysql增删改查
import pymysqlconnection = pymysql.connect(#链接数据库 host='localhost', user='root', password='20010608csm', db='studentsdb',)def find_data(): cursor = connection.cursor() # 创建游标. # SQL语句 sql = 'select * from tb_user' # .原创 2022-03-28 20:03:37 · 285 阅读 · 0 评论 -
Python爬虫爬取某盗版小说网站小说.
前言我将这个程序分为两个功能,一是实现爬取小说的最新章节,二是爬取小说的所有章节.仅供学习.获取小说详情页的html通过函数gethtml()实现.def gethtml(url):#得到小说详细页的html headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.10.原创 2022-03-19 17:31:18 · 2824 阅读 · 4 评论 -
利用爬虫爬取自己csdn主页最近发表的文章及问题.
所以我们直接查找h4标签即可,而链接是存放在标签中的href属性中,然而直接搜索却会发现出现很多其他的链接,例如开通vip啊之类的......发现该页面的所有链接都存放在标签中,但是我们只需要最近的文章或问题对应的链接,通过查看页面代码发现“最近”栏框的所有相关标签都在属性为mainContent的div标签中作为子标签存在.然后按照刚才的方法去查找链接,就会出现链接比标题多的情况.原因是你的回答里的那个链接会被放在回答的那个标签里最为子标签a的属性出现,而不是在正文里....原创 2022-03-04 22:05:19 · 779 阅读 · 0 评论 -
python编写爬虫时urllib.request库和requests库的区别
关于urllib.request和requests的区别简单通俗的来说就是前者 不如后者更加使用和方便.urllib.request导入方法:import urllib.request简介:该模块中的urlopen()方法能对网站发出最基本的请求,在一些没有反爬机制的网站中可以使用该方法去对web网页发送请求,然后解码,从而获得网页. url1 = "http://www.zueb.edu.cn/site/xsgate/xsyw/index.html" print原创 2022-02-23 23:22:52 · 2128 阅读 · 0 评论 -
Python课设实验 之 爬虫应用——校园网搜索引擎(使用bs4进行数据分析.)
题目要求:第3题 爬虫应用——校园网搜索引擎本题旨在使用Python建立一个适合校园网使用的Web搜索引擎系统,它能在较短时间内爬取页面信息,具有有效准确的中文分词功能,实现对校园网上新闻信息的快速检索展示。代码:import urllib.requestimport urllib.parsefrom bs4 import BeautifulSoupimport reimport osfrom time import sleept=open('heml.txt','w',..原创 2021-12-02 15:57:41 · 2018 阅读 · 3 评论 -
Python课设实验 之 车票订购系统.(sqlite数据库 储存.)
要求:第2题 编写车票订购系统(1)上网查询郑州到北京、西安、石家庄、济南、太原、武汉的距离以及票价,用数据库保存车次信息。(2)要求输入目的地,能够查询到里程和票价信息。(3)用数据库存储每一次售票记录,包括:售票流水号,起点站,终点站,里程,金额等数据,并统计所有存储记录的总售票金额及各站的旅客流量(进站流量+出站流量)。(4)能够打印票据信息,包括订票人信息、票价、票据号、车次等信息。程序应采用模块化设计,主函数是程序入口,各模块独立,可分块调试,各模块由主函数控制调用。编写.原创 2021-12-02 15:51:04 · 4412 阅读 · 11 评论 -
Python课设实验 之 公交查询系统.(文本导入 字典树 储存.)
要求:目录要求:第1题 编写一个公交查询系统随着公交系统的庞大,人们很难得到准确的公交信息,这样给人们的出行就带来了不便。因此,急需一个方便、快捷的公交信息查询方式,本系统提供换乘询功能、路线查询功能。乘客可以方便的进行查询,以防乘错车次。主要有4个模块:线路查询、站点查询、换乘查询和后台管理模块。(1)线路查询:可以获得要查询公交所通过的各个站点。(2)站点查询:通过输入的指定站点查询经过该站点的公交。(3)换乘查询:分为公交直达、公交一次换乘,主要体现那些不可直达需要转...原创 2021-12-02 11:19:38 · 5574 阅读 · 14 评论 -
Python 字典树 通过value(值)求key(键).(当value为列表,且只知道其中一个元素时也可)
对于一般的字典树我们可以用以下函数来求value对应的key:bads = {'Name': 3, '不牛': 5, 'uid': 5, 'id': 1}def get_key1(dct, value): return (list(filter(lambda k1: dct[k1] == value, dct)))print(get_key1(bads, 5))运行结果如下:此函数是使用filter函数和lambda函数的套用来实现遍历并筛选符合条件的功能.然而,..原创 2021-11-20 23:58:50 · 1722 阅读 · 0 评论 -
Python 使用tcp协议模拟 在线对话聊天(即时通讯)
程序分为两部分,我将这两部分分别称作客户端和主机端.这两个程序将分别在两台计算机上运行已达到即时通讯的效果.由于条件限制这里博主就直接用一台计算机来模拟这个过程.主机端代码:import socketimport threadingimport times=socket.socket(socket.AF_INET,socket.SOCK_STREAM)s.connect(('127.0.0.1',8888))#建立与服务器的链接.s.send('客户端申请连接服务器'.enc原创 2021-11-14 19:44:14 · 5367 阅读 · 4 评论 -
Python 列表(List)基本操作
一.列表的截取1.正向索引1.只有头下标i和冒号(代表的是从该头下标i的元素开始截取,一直到最后)2.只有冒号尾下标i(代表的是从开始一直截取到i-1的元素)3.头下标i,冒号和尾下标j都有(代表的是从i 一直截取到j-1的元素)list=['123','abc',0,True]x=list[1:]y=list[:3]z=list[2:3]print(x)print(y)print(z)结果:2.反向索引1.只有头下标i和冒号(代表的是从该头下标i的元素开始原创 2021-09-17 21:43:38 · 3917 阅读 · 0 评论