程序员coding-CSDN博客

原创 Python基础：生成requirements.txt文件

本文介绍了如何生成文件，以便在其他环境中安装相同的依赖包。首先介绍了使用pip freeze命令的方法，然后介绍了使用第三方库pipreqs的方法。使用pip freeze方法的优点是它简单易用，但它会包含虚拟环境中所有已安装的包，而不仅仅是项目所需的包。这可能会导致文件中包含不必要的依赖项。相比之下，pipreqs是一个更精确的方法，因为它会分析项目中的 Python 源代码文件，找出所有依赖的包，并将它们及其版本写入文件。这样，生成的文件只包含项目所需的依赖项，更加干净和易于管理。

2024-03-17 11:35:04 3344

原创 Python实战：采集全国5A景点名单

通过以上步骤，编写这个简单的 Python 代码，就获取到了官方发布的全国 5A 景点信息，一共是 340 个。这个过程包括获取网页源代码、解析网页源代码、提取所需数据和存储数据等环节。掌握了这些技能，我们可以更加高效地在网上采集所需的信息，为数据分析提供有力支持。世界那么大，我想去看看。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。

2024-03-13 20:57:57 1208 1

原创 Python实战：用Python程序实现春晚刘谦魔术

通过我们的代码实验，可以看出刘谦的这个魔术纯粹是数学原理，只要按照固定的顺序执行，就一定能拼成完成的牌。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。

2024-02-10 14:27:21 1602

原创 Python实战：使用DrissionPage库爬取高考网大学信息

DrissionPage 库使用起来确实比 Selenium 库方便很多，再也回不去啦。哈哈哈。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。

2024-02-02 21:29:51 3339 1

原创 Python实战：使用DrissionPage库爬取拉勾网职位信息

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器，也能收发数据包，还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大，内置无数人性化设计和便捷功能。它的语法简洁而优雅，代码量少，对新手友好。用 requests 做数据采集面对要登录的网站时，要分析数据包、JS 源码，构造复杂的请求，往往还要应付验证码、JS 混淆、签名参数等反爬手段，门槛较高，开发效率不高。使用浏览器，可以很大程度上绕过这些坑，但浏览器运行效率不高。

2024-02-01 21:44:47 4568 6

原创 Python实战：爬取微博，获取南京地铁每日客流数据

在这篇文章中，我们使用 Python 进行网络爬虫，爬取了微博上的南京地铁每日客流数据，并且进行了数据处理和数据可视化。爬取数据环节较为简单，多看几篇我之前发的文章，都可以轻松写出来爬虫部分的代码。由于微博是由地铁公司的工作人员每天人工编辑发送的，其中不免有数据格式不完全一致，这给数据处理环节增加了复杂度。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。本文数据集已经上传到公众号，后台回复“南京地铁”可以自取。

2024-01-31 20:06:04 2034

原创 Python实战：获取身份证前6位归属地

有的时候编程不难，关键是要找到一个好的数据源。通过这篇文章，我们学会了如何使用 Python 获取身份证前六位的归属地信息。希望这篇文章对你有所帮助，让你在 Python 编程和数据处理方面取得更多的进步！本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。本文数据集已经上传到公众号，后台回复“身份证”可以自取。

2024-01-29 19:57:09 3191

原创 Python实战：将爬虫获取到的数据存到数据库中

SQLite 是一个轻量级的关系型数据库，它是一个开源的嵌入式数据库引擎。SQLite 占用资源非常少，通常用于嵌入式应用程序和移动设备，也经常被用作桌面应用程序的本地数据库。由于其小巧和便携性，SQLite 成为了许多开发人员的首选数据库。在这个 Python 实战中，我们学习了如何将爬虫获取到的数据存储到数据库中。首先，我们使用requests库获取了 API 的数据，并将其转换为 JSON 格式。然后，我们使用pandas库将 JSON 数据转换为 DataFrame，并从中选择了需要保存的列。

2024-01-28 21:16:56 5308

原创 Seaborn：一个样式更好看的Python数据可视化库

Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库，它提供了更高级别的界面和更优雅的默认样式，使得用户能够更轻松地创建各种各样的统计图形。Seaborn 的全名是 “Statistical Data Visualization”，它的目标是使数据可视化更加简单、直观和有效。高度易用：Seaborn 提供了一组高级 API，使得用户可以轻松地创建各种统计图形，而无需关心底层的实现细节。美观的默认样式：Seaborn 提供了一套美观的默认样式，使得生成的图形更具视觉吸引力。

2024-01-25 22:30:18 4753

原创打好Pandas与Matplotlib组合拳，玩转数据分析与可视化

熟练结合使用 Pandas 和 Matplotlib，可以多维度的进行数据分析与可视化。使用过 Matlab 基础的话，会发现 Matplotlib 一些命令是相似的。总体来说 Matplotlib 使用起来比较简单，可以快速入门。想要生成比较好看的图还是要花心思进行调教优化，比如设置中文字体、数据标签、y 轴内容过长优化显示等细节，需要逐步完善。更多的 Matplotlib 高阶用法还在尝试，放在未来再另起一篇继续写。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。

2024-01-24 21:06:44 2242 1

原创 Python实战：爬取哔哩哔哩网站“每周必看”栏目

本次爬虫还是很简单的一个案例，但是在最后保存数据环节翻了船。可以采用每爬一页数据就保存一个 excel 文件的方式，减少重复爬取一次的损失。更好的方式是在进行数据保存之前，做一下数据处理，删除特殊字符。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。

2024-01-22 20:18:23 9376

原创 Python实战：解决了小程序抓包返回400状态码问题

写程序是一个不断 debug 的过程，需要多查找资料，多尝试。本文首发在“程序员coding”公众号，欢迎关注与我一起交流学习。数据集已经上传到公众号，后台回复“Manner Coffee”可以自取。

2024-01-21 15:32:38 1459 1

原创 Python实战：通过微信小程序，获取Manner Coffee全国门店信息

有公众号读者在后台提问，想要上海 manner 门店信息。

2024-01-20 19:57:16 2052 1

原创 #Python实战：selenium模拟浏览器运行，获取软科网站2023中国大学排名

在爬取一些加密的网页时，可以使用selenium模拟浏览器运行，再从网页中提取想要的数据。

2024-01-19 20:30:32 3897 1

原创 Python实战：获取腾讯视频弹幕

通过 Python 获取腾讯视频弹幕。

2024-01-16 08:47:33 1957 1

原创 Python实战：获取瑞幸咖啡全国门店和职能部门，竟有接近1.2万个门店

前段时间通过 Python 实战，获取了全国 6947 个星巴克门店的信息。今天，就有读者在公众号后台问到能不能爬取一下瑞幸的门店，这也激起了我的好奇心，说干就干。打开瑞信咖啡挂网，，并没有发现可以找到门店的入口，出师不利。继续随便浏览下官网的其他页面，来到了“关于我们”——“加入我们”——“门店招聘”这个页面，直觉告诉我这里可能会有数据。点击“门店招聘”，跳转到招聘页面。（本文首发在“程序员coding”公众号）

2024-01-09 22:54:33 3172

原创 Python实战：爬取小说网站

第 1 步：用 requests 库请求https://www.biquge11.cc/read/12972/这个网址，将返回的网页信息转为text，再用re库的正则表达式取出每一章节的地址，放在一个info_lists列表里。通过分析网页源代码，可以发现每个章节的网址都是https://www.biquge11.cc拼接上/read/12972/XXXX.html这种固定格式，也就是下面图片中红框内容，我们可以用正则表达式轻松拿下。首先，百度搜索“笔趣阁”，发现有很多网站都叫笔趣阁。

2024-01-06 22:10:24 1562 2

原创 Python可视化：通过pyecharts库生成桑基图

今天有读者问到怎么生成桑葚图，那就借这个问题来写一篇文章吧。桑葚图更官方名称叫桑基图。（欢迎在公众号后台留言提问~）桑基图通常用于可视化能源或成本转移，通过桑基图可以生动的展示数据的流动和来龙去脉，帮助我们确定各部分流量在总体中的大概占比情况。桑基图通常类似下面图片展示的样式：（本文首发在“程序员coding”公众号）在 python 中，可以借助 pyecharts 库生成桑基图。

2024-01-05 20:19:40 2764 1

原创 python实战：爬取哔哩哔哩视频弹幕

response 内就是乱码的弹幕数据，弹幕内容可以通过 re 正则表达式提取。（本文首发在“程序员coding”公众号）pycharm 控制台输出如下，获取到 16589 条弹幕。（本文首发在“程序员coding”公众号）点开视频右侧的“弹幕列表”，点击下面的“查看历史弹幕”，选择一个其他日期。键盘 F12 快捷键，或者鼠标右击“检查”打开浏览器的检查页面。这个请求，右边就是弹幕的 url 地址。，播放任意一个视频。在开发者工具页面，找到。

2024-01-02 21:07:59 6779 7