程序员coding
码龄3年
关注
提问 私信
  • 博客:56,410
    56,410
    总访问量
  • 23
    原创
  • 186,617
    排名
  • 4,019
    粉丝
  • 447
    铁粉
  • 学习成就

个人简介:Python爬虫、实战、可视化,用Python做一些有意思的案例,欢迎关注我~联系方式:“程序员coding”公众号

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2022-05-05
博客简介:

stormhou的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    868
    当月
    27
个人成就
  • 获得752次点赞
  • 内容获得21次评论
  • 获得838次收藏
  • 代码片获得6,057次分享
创作历程
  • 20篇
    2024年
  • 3篇
    2023年
成就勋章
TA的专栏
  • python
    1篇
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Python基础:生成requirements.txt文件

本文介绍了如何生成文件,以便在其他环境中安装相同的依赖包。首先介绍了使用pip freeze命令的方法,然后介绍了使用第三方库pipreqs的方法。使用pip freeze方法的优点是它简单易用,但它会包含虚拟环境中所有已安装的包,而不仅仅是项目所需的包。这可能会导致文件中包含不必要的依赖项。相比之下,pipreqs是一个更精确的方法,因为它会分析项目中的 Python 源代码文件,找出所有依赖的包,并将它们及其版本写入文件。这样,生成的文件只包含项目所需的依赖项,更加干净和易于管理。
原创
发布博客 2024.03.17 ·
2490 阅读 ·
4 点赞 ·
0 评论 ·
29 收藏

Python实战:采集全国5A景点名单

通过以上步骤,编写这个简单的 Python 代码,就获取到了官方发布的全国 5A 景点信息,一共是 340 个。这个过程包括获取网页源代码、解析网页源代码、提取所需数据和存储数据等环节。掌握了这些技能,我们可以更加高效地在网上采集所需的信息,为数据分析提供有力支持。世界那么大,我想去看看。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。还可以通过公众号添加我的私人微信。
原创
发布博客 2024.03.13 ·
710 阅读 ·
5 点赞 ·
0 评论 ·
15 收藏

Python实战:用Python程序实现春晚刘谦魔术

通过我们的代码实验,可以看出刘谦的这个魔术纯粹是数学原理,只要按照固定的顺序执行,就一定能拼成完成的牌。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。
原创
发布博客 2024.02.10 ·
1350 阅读 ·
43 点赞 ·
0 评论 ·
25 收藏

Python实战:使用DrissionPage库爬取高考网大学信息

DrissionPage 库使用起来确实比 Selenium 库方便很多,再也回不去啦。哈哈哈。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。
原创
发布博客 2024.02.02 ·
2381 阅读 ·
19 点赞 ·
0 评论 ·
32 收藏

Python实战:使用DrissionPage库爬取拉勾网职位信息

DrissionPage 是一个基于 python 的网页自动化工具。它既能控制浏览器,也能收发数据包,还能把两者合而为一。可兼顾浏览器自动化的便利性和 requests 的高效率。它功能强大,内置无数人性化设计和便捷功能。它的语法简洁而优雅,代码量少,对新手友好。用 requests 做数据采集面对要登录的网站时,要分析数据包、JS 源码,构造复杂的请求,往往还要应付验证码、JS 混淆、签名参数等反爬手段,门槛较高,开发效率不高。使用浏览器,可以很大程度上绕过这些坑,但浏览器运行效率不高。
原创
发布博客 2024.02.01 ·
3906 阅读 ·
52 点赞 ·
4 评论 ·
70 收藏

Python实战:爬取微博,获取南京地铁每日客流数据

在这篇文章中,我们使用 Python 进行网络爬虫,爬取了微博上的南京地铁每日客流数据,并且进行了数据处理和数据可视化。爬取数据环节较为简单,多看几篇我之前发的文章,都可以轻松写出来爬虫部分的代码。由于微博是由地铁公司的工作人员每天人工编辑发送的,其中不免有数据格式不完全一致,这给数据处理环节增加了复杂度。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。本文数据集已经上传到公众号,后台回复“南京地铁”可以自取。
原创
发布博客 2024.01.31 ·
1416 阅读 ·
20 点赞 ·
0 评论 ·
28 收藏

身份证归属地查询表.csv

发布资源 2024.01.29 ·
csv

Python实战:获取身份证前6位归属地

有的时候编程不难,关键是要找到一个好的数据源。通过这篇文章,我们学会了如何使用 Python 获取身份证前六位的归属地信息。希望这篇文章对你有所帮助,让你在 Python 编程和数据处理方面取得更多的进步!本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。本文数据集已经上传到公众号,后台回复“身份证”可以自取。
原创
发布博客 2024.01.29 ·
2221 阅读 ·
17 点赞 ·
0 评论 ·
11 收藏

Python实战:将爬虫获取到的数据存到数据库中

SQLite 是一个轻量级的关系型数据库,它是一个开源的嵌入式数据库引擎。SQLite 占用资源非常少,通常用于嵌入式应用程序和移动设备,也经常被用作桌面应用程序的本地数据库。由于其小巧和便携性,SQLite 成为了许多开发人员的首选数据库。在这个 Python 实战中,我们学习了如何将爬虫获取到的数据存储到数据库中。首先,我们使用requests库获取了 API 的数据,并将其转换为 JSON 格式。然后,我们使用pandas库将 JSON 数据转换为 DataFrame,并从中选择了需要保存的列。
原创
发布博客 2024.01.28 ·
4485 阅读 ·
42 点赞 ·
0 评论 ·
85 收藏

Seaborn:一个样式更好看的Python数据可视化库

Seaborn 是一个基于 Matplotlib 的 Python 数据可视化库,它提供了更高级别的界面和更优雅的默认样式,使得用户能够更轻松地创建各种各样的统计图形。Seaborn 的全名是 “Statistical Data Visualization”,它的目标是使数据可视化更加简单、直观和有效。高度易用:Seaborn 提供了一组高级 API,使得用户可以轻松地创建各种统计图形,而无需关心底层的实现细节。美观的默认样式:Seaborn 提供了一套美观的默认样式,使得生成的图形更具视觉吸引力。
原创
发布博客 2024.01.25 ·
2882 阅读 ·
49 点赞 ·
0 评论 ·
38 收藏

打好Pandas与Matplotlib组合拳,玩转数据分析与可视化

熟练结合使用 Pandas 和 Matplotlib,可以多维度的进行数据分析与可视化。使用过 Matlab 基础的话,会发现 Matplotlib 一些命令是相似的。总体来说 Matplotlib 使用起来比较简单,可以快速入门。想要生成比较好看的图还是要花心思进行调教优化,比如设置中文字体、数据标签、y 轴内容过长优化显示等细节,需要逐步完善。更多的 Matplotlib 高阶用法还在尝试,放在未来再另起一篇继续写。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。
原创
发布博客 2024.01.24 ·
1613 阅读 ·
31 点赞 ·
1 评论 ·
34 收藏

Python实战:爬取哔哩哔哩网站“每周必看”栏目

本次爬虫还是很简单的一个案例,但是在最后保存数据环节翻了船。可以采用每爬一页数据就保存一个 excel 文件的方式,减少重复爬取一次的损失。更好的方式是在进行数据保存之前,做一下数据处理,删除特殊字符。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。
原创
发布博客 2024.01.22 ·
1524 阅读 ·
16 点赞 ·
0 评论 ·
23 收藏

Python实战:解决了小程序抓包返回400状态码问题

写程序是一个不断 debug 的过程,需要多查找资料,多尝试。本文首发在“程序员coding”公众号,欢迎关注与我一起交流学习。数据集已经上传到公众号,后台回复“Manner Coffee”可以自取。
原创
发布博客 2024.01.21 ·
1249 阅读 ·
27 点赞 ·
1 评论 ·
23 收藏

Python实战:通过微信小程序,获取Manner Coffee全国门店信息

有公众号读者在后台提问,想要上海 manner 门店信息。
原创
发布博客 2024.01.20 ·
1559 阅读 ·
32 点赞 ·
0 评论 ·
23 收藏

#Python实战:selenium模拟浏览器运行,获取软科网站2023中国大学排名

在爬取一些加密的网页时,可以使用selenium模拟浏览器运行,再从网页中提取想要的数据。
原创
发布博客 2024.01.19 ·
3425 阅读 ·
46 点赞 ·
1 评论 ·
50 收藏

Python实战:获取腾讯视频弹幕

通过 Python 获取腾讯视频弹幕。
原创
发布博客 2024.01.16 ·
974 阅读 ·
22 点赞 ·
1 评论 ·
13 收藏

Python实战:获取瑞幸咖啡全国门店和职能部门,竟有接近1.2万个门店

前段时间通过 Python 实战,获取了 全国 6947 个星巴克门店的信息。今天,就有读者在公众号后台问到能不能爬取一下瑞幸的门店,这也激起了我的好奇心,说干就干。打开瑞信咖啡挂网,,并没有发现可以找到门店的入口,出师不利。继续随便浏览下官网的其他页面,来到了“关于我们”——“加入我们”——“门店招聘”这个页面,直觉告诉我这里可能会有数据。点击“门店招聘”,跳转到招聘页面。(本文首发在“程序员coding”公众号)
原创
发布博客 2024.01.09 ·
1840 阅读 ·
37 点赞 ·
0 评论 ·
22 收藏

Python实战:爬取小说网站

第 1 步:用 requests 库请求https://www.biquge11.cc/read/12972/这个网址,将返回的网页信息转为text,再用re库的正则表达式取出每一章节的地址,放在一个info_lists列表里。通过分析网页源代码,可以发现每个章节的网址都是https://www.biquge11.cc拼接上/read/12972/XXXX.html这种固定格式,也就是下面图片中红框内容,我们可以用正则表达式轻松拿下。首先,百度搜索“笔趣阁”,发现有很多网站都叫笔趣阁。
原创
发布博客 2024.01.06 ·
1113 阅读 ·
17 点赞 ·
1 评论 ·
11 收藏

Python可视化:通过pyecharts库生成桑基图

今天有读者问到怎么生成桑葚图,那就借这个问题来写一篇文章吧。桑葚图更官方名称叫桑基图。(欢迎在公众号后台留言提问~)桑基图通常用于可视化能源或成本转移,通过桑基图可以生动的展示数据的流动和来龙去脉,帮助我们确定各部分流量在总体中的大概占比情况。桑基图通常类似下面图片展示的样式:(本文首发在“程序员coding”公众号)在 python 中,可以借助 pyecharts 库生成桑基图。
原创
发布博客 2024.01.05 ·
2096 阅读 ·
10 点赞 ·
1 评论 ·
15 收藏

python实战:爬取哔哩哔哩视频弹幕

response 内就是乱码的弹幕数据,弹幕内容可以通过 re 正则表达式提取。(本文首发在“程序员coding”公众号)pycharm 控制台输出如下,获取到 16589 条弹幕。(本文首发在“程序员coding”公众号)点开视频右侧的“弹幕列表”,点击下面的“查看历史弹幕”,选择一个其他日期。键盘 F12 快捷键,或者鼠标右击“检查”打开浏览器的检查页面。这个请求,右边就是弹幕的 url 地址。,播放任意一个视频。在开发者工具页面,找到。
原创
发布博客 2024.01.02 ·
4024 阅读 ·
23 点赞 ·
4 评论 ·
68 收藏
加载更多