- 博客(164)
- 资源 (11)
- 收藏
- 关注
原创 Excel VBA自动化办公:一键批量导表+生成Word报告(详细代码注释)
Excel VBA自动化办公:一键批量导表+生成Word报告(详细代码注释) 📌 本文适合人群:Excel中级用户、数据分析师、行政/财务人员 🎯 核心收益:学会用VBA批量处理Excel表格,把重复性工作从2小时压缩到2秒 🔧 所需工具:Microsoft Excel 2016/2019/365(均支持) 先问你一个灵魂问题:你有没有每周或每月都要做这种事——从一个总表里,按部门/车间/类别,一张一张地复制数据,然后保存成一个个单独的文件? 如果有,你现在看的这篇文章,可以帮你把这件事自动化。 本文
2026-04-09 10:05:54
156
原创 K-means聚类算法完整实战:详细代码注释(原理+sklearn实现+用户分层案例)
📣 关注公众号「船长Talk」,获取更多数据分析干货、Python实战技巧,每天3篇原创,帮你快速成长! K-means聚类算法完整实战:从原理到业务落地(详细代码注释) K-means 是工作中用得最多的聚类算法。用户分层、商品分组、异常检测……很多场景都能用到。 这篇文章把 K-means 的核心原理、sklearn 完整代码实现、调参技巧、业务案例,从头到尾写清楚。代码每一行都有注释,可以直接复制跑。 一、K-means 原理(最简版本) K-means 做的事情只有一件:把 N 条数据,分成 K
2026-04-09 10:03:17
239
原创 Python K-means聚类算法完整实战:用户分群详细代码注释(从数据到运营策略)
Python K-means聚类算法完整实战:用户分群详细代码注释 聚类是数据分析中最常用的无监督学习方法,而K-means是最经典、最广泛使用的聚类算法。本文用一个真实业务场景——电商用户分群,从零带你掌握K-means的完整实战流程,每行代码都有详细注释。 一、什么是K-means聚类? K-means的核心思想很简单: 把N个数据点分成K个组(簇) 同一组内的点尽量相似(组内距离小) 不同组之间的点尽量不同(组间距离大) 算法步骤: 随机选K个点作为初始中心 计算每个数据点与各中心的距离,分配到最近的
2026-04-08 10:04:10
218
原创 MySQL自动导出文件实战:动态SQL+事件调度器定时备份详细代码注释
📢 更多数据分析干货,关注公众号:船长Talk,每天分享SQL / Python / 数据分析实战技巧! MySQL 自动导出文件实战:用事件调度器+动态SQL实现定时备份(详细代码注释) 在数据分析工作中,有一个痛点很多人都遇到过:手动导出数据费时费力,每天早上9点前要把昨天的数据导出来,稍微一忘就迟到了…… 今天船长来分享一个 MySQL 自动化导出方案:利用 CONCAT + PREPARE + EXECUTE 动态SQL,结合 MySQL 事件调度器,实现定时自动导出文件,文件名自带时间戳。 直接
2026-04-08 10:03:34
207
原创 SQL窗口函数完整指南:5大高频场景详细代码注释(面试必备)
前言 SQL 窗口函数(Window Functions)是数据分析师面试和日常工作中最高频考点之一。 很多人会写 GROUP BY,但一碰到「既要分组聚合、又要保留原始行」的需求就懵了——这正是窗口函数的主场。 本文覆盖 5 大高频场景,每段代码都有详细注释,帮你一次学透。 一、什么是窗口函数? 窗口函数和普通聚合函数(SUM/AVG/COUNT)的核心区别: 普通聚合:GROUP BY 之后,每组只返回 1 行结果 窗口函数:OVER() 之后,每组计算结果,但原始每行都保留 -- 公主号:船长Talk
2026-04-07 10:03:34
212
原创 numpy+pandas核心操作全总结:详细代码注释(数组/Series/DataFrame完整指南)
📢 更多数据分析干货,关注公众号:船长Talk,每天分享 Python/SQL 实战技巧! 两个重要的包:numpy、pandas,是数据分析师的必备基础。本文做全面总结,每段代码都有详细注释,建议收藏! 01 创建 array 数组(能矢量计算) # 公众号:船长Talk # 01 构造方法 import numpy as np np.array([列表]) # 列表转数组 # 02 二维数组 data = [[1,2,3,4],[5,6,7,8]] arr2 = np.array(data) arr2
2026-04-07 10:02:39
322
原创 Python数据分析必学:numpy+pandas全总结,详细代码注释(收藏版)
📊 关注公众号「船长Talk」 每天更新数据分析实战技巧 · Python/SQL干货 · 职场真相 · 投资洞察 👉 微信搜索「船长Talk」即可关注 做数据分析,numpy 和 pandas 是两个绕不开的核心库。 很多同学学了一半就放弃了——不是因为难,而是没有一份系统整理过的笔记。 这篇文章把 numpy 核心操作 + pandas 常用方法 全部整理出来,每段代码都有详细注释,方便收藏查阅。 一、numpy 核心操作(详细代码注释) 01 创建 array 数组(能矢量计算) # 公众号:船长
2026-04-06 10:03:43
578
原创 Python爬虫实战:requests+xpath批量抓取网页图片(详细代码注释+断点续传)
前言 本文手把手带你用 Python requests 库 + xpath 写一个可以批量抓取网页图片的爬虫,支持: 多级页面递归爬取(翻页 → 标题页 → 图片) 断点续传(history 模块,下载过的图片自动跳过) 自动新建文件夹(每满 490 张自动新建一个文件夹,方便导入百度云) 异常自动重试,错误写入日志 完整代码在文末,直接可运行。 一、环境准备 # 安装依赖 # 公主号:船长Talk pip install requests lxml 二、整体思路 爬虫流程分 4 步: getHTML(pa
2026-04-06 10:03:00
673
原创 Python机器学习sklearn线性模型完整指南:LinearRegression/Ridge/Lasso详细代码注释
机器学习sklearn模型核心API详解:线性回归、岭回归、Lasso全覆盖(详细代码注释) scikit-learn 是 Python 机器学习最常用的库,但很多初学者对各模型的参数含义一知半解。本文系统整理了 sklearn 中线性模型家族(LinearRegression / Ridge / Lasso)的完整 API 参数说明,适合入门和进阶学习。 一、sklearn 模型通用方法 所有 sklearn 模型都有以下通用方法,理解这些是使用任何算法的基础: # 公主号:船长Talk —— 每天一篇数
2026-04-05 10:03:01
262
原创 Python数据处理实战:列表推导式+time库+DataFrame+groupby详细代码注释
🚢 船长Talk | 每天一篇数据分析干货 关注公众号「船长Talk」,获取更多 Python / 数据分析 / SQL 实战技巧,附完整注释代码。 每篇文章都有详细代码注释,学了就能用。 Python 数据处理实战:列表推导式 + time库 + DataFrame + groupby 详细代码注释 本文整理了 Python 数据分析常考/常用的 10 个操作,包含详细代码注释,适合入门和查阅复习。 涵盖:列表去重、列表推导式、map+lambda、time 时间转换、pandas DataFrame
2026-04-05 10:02:21
554
原创 sklearn机器学习模型参数详解+详细代码注释(LinearRegression/Ridge/Lasso完整指南)
📌 关注公众号「船长Talk」,持续分享数据分析、机器学习实战干货,每天3篇技术好文等你来! sklearn机器学习模型参数详解(详细代码注释版) 本文整理了 sklearn 中最常用的回归模型通用方法与参数,每个参数都配有说明,适合面试前复习或日常查阅。 公主号:船长Talk — 更多机器学习/数据分析干货,持续更新中。 模型的一些通用方法: # 公主号:船长Talk # 机器学习模型通用方法示例(sklearn) from sklearn.linear_model import LinearRegre
2026-04-04 10:03:20
202
原创 Python爬虫实战:爬取百度贴吧数据并保存到本地(详细代码注释)
Python爬虫实战:爬取百度贴吧数据并保存到本地 💡 学习提示:本文提供完整爬虫代码,适合Python初学者。更多数据分析/职场/AI干货,欢迎关注公主号:船长Talk 需求分析 我们需要爬取百度贴吧指定关键词的多页内容,并将每页保存为HTML文件。 完整代码 # Python爬虫:爬取百度贴吧数据 # 公主号:船长Talk(更多数据分析/职场/AI干货) import requests import time def GetHtml(keywords, pages, timeSleep): """ 爬
2026-04-03 10:20:16
217
原创 50道SQL经典面试题,代码逐行详解,学完牛客网随便刷
50道SQL经典面试题,代码逐行详解,学完牛客网随便刷 大家好,我是船长。 这篇文章整理了50道 SQL 高频面试题,覆盖 SELECT、聚合函数、子查询、GROUP BY、HAVING 等核心知识点。 每道题都附上了详细注释,学完再去牛客网刷题,事半功倍。 一、基础查询:SELECT / FROM / WHERE -- 【公主号:船长Talk】基础查询三件套:SELECT 选列,FROM 指定表,WHERE 过滤条件 -- 1. 查询表中所有数据,* 代表所有列 SELECT * FROM world;
2026-04-02 22:36:25
544
原创 Pandas处理百万行数据慢?这6个技巧让速度提升10倍
Pandas处理百万行数据慢?这6个技巧让速度提升10倍 做数据分析,你一定碰到过这种情况: 数据才100万行,跑个groupby要等30秒,for循环跑完要5分钟,内存直接爆掉。 不是你代码写得差,是姿势不对。 这篇文章整理了6个实测有效的Pandas性能优化技巧,每个都附完整代码。 1. 读数据时就指定dtype,内存直接减半 Pandas默认会"猜"每列的数据类型,猜错了就用最大的类型存,非常浪费内存。 import pandas as pd import numpy as np # ❌ 默认读取:p
2026-03-31 19:09:56
177
原创 SQL窗口函数实战:5个高频场景完整代码,数据分析必掌握
90%的数据分析师,SQL只用到了不到30%的功力。 剩下那70%,就是 窗口函数(Window Function)。 遇到排名、同比、累计、移动平均这类问题,大多数人的第一反应是写子查询、用Excel辅助处理,或者导出后用Python转一遍。折腾2小时,写了100行代码,最后的结果——一个窗口函数,5行SQL就能搞定。 这篇文章,用 5个真实业务场景 + 完整可运行代码,带你把窗口函数彻底搞懂。文末附建表语句,可以直接复制到MySQL/PostgreSQL跑起来。 一、窗口函数是什么?(一句话搞懂) 普通
2026-03-31 18:55:27
354
原创 国产AI调用量三连冠,但Meta已裁1.6万人
国产大模型调用量三连冠,但Meta已经开始裁1.6万人了 7.359万亿Token。 这是中国大模型上周的调用量。环比增长56.91%,连续三周超越美国。全球调用量前四名——小米、阶跃星辰、MiniMax、DeepSeek,全是国产。 同一周,Meta宣布裁员1.6万人,占全员20%。 一边是技术爆发,一边是裁员浪潮。这两件事,表面上没关系,但船长觉得,它们指向的是同一个结局。 国产大模型,凭什么连续三周全球第一? 很多人以为国产AI是靠补贴烧出来的泡沫。但这次的调用量数据,是真实用户真实调用,不是PPT上
2026-03-25 23:29:56
340
原创 大厂月薪3万疯抢文科生,AI时代理工科竟成了弃子?
同事小林,985计算机硕士,今年春招投了47份简历,到现在只有2个面试。他旁边工位的文科女生,中文系本科,投了8份,已经拿了3个offer,最高月薪3.2万。船长看了猎聘网2026年一季度的《AI时代就业市场趋势报告》,被里面一个数据砸中了脑袋:📊 面向人文社科专业的岗位,同比暴涨📊 这些岗位中,月薪3万以上的占比超过📊 与此同时,纯技术编程岗位招聘量同比下滑📌 数据来源:猎聘网《2026年一季度AI时代就业市场趋势报告》不是文科生忽然变聪明了。是大厂换赛道了。💬 你是理工科还是文科背景?
2026-03-24 20:45:17
181
原创 python 安装
在Python官方网站上下载所需的Python版本的源代码包。您可以访问 https://www.python.org/ 下载最新版本的Python源代码包。如果已经安装了Python,将显示已安的Python版本。将Python-X.X.X.tar.xz替换为您下载的Python源代码包的实际文件名。将/path/to/source/code替换为您下载的Python源代码的实际路径。将Python-X.X.X替换为解压后的Python源代码包的实际录名。这将显示已安装Python 3.8版本号。
2023-12-17 02:07:11
295
原创 公司级abtest实战--带分组的abtest应该怎么做?
某线上查价平台最近上线了一个新指导价格的产品功能,需要评估该功能对供应商提供的价格是否产生影响作,以确定该项目是否有继续推广的价值。数据来源为工作中接触到的某公司后台数据,在完成工作相关分析后,本人对该部分数据虚拟重建用以复盘整理。本文最早发表在csdn时间为:2023-04-17。
2023-04-17 18:31:28
807
原创 数据分析师从业必问的5个问题~
[在这里插入图片描述](https://img-blog.csdnimg.cn/fff0c5dca6c4408a9aeb6785d801cb40.png #pic_center =x300)写在前面:经常有小伙伴问船长一些数据分析从业的问题,类似如何转行、毕业如何择业、如何学习成为数据分析师,今天就抽空总结了一下大家入行数据分析的问题,基本囊括在以下5个问题中,下面5个问题将解答你的困惑,也可能在后续的面试中问到,另外我为你准备了我整理的数分笔记、数分工具、数分学习资料,获取方式在文末~
2023-04-14 16:52:00
781
原创 ChatGPT为我做的账号介绍
这是我正在用的版本整理出来有需要的可以试试 (强烈建议测试)目前chat能干的事情太多了已经有公司开始用这个淘汰员工了知己知彼才能百战百胜我个人感受是: 想要不被替代 就先学会利用它
2023-03-21 17:24:38
7026
原创 分词模型与关键字提取——当下最热的学习资料是什么?
起因是我在朋友圈看到某位大牛在转让他的课程,正好最近也在学习,于是去咨询了一下,价格还好,于是就买下了~写下这篇nlp相关~
2022-07-26 00:23:56
746
2
原创 如何用18天读完周志华老师的西瓜书(机器学习)
第一章 绪论1.1解释经验到模型过程1.2以西瓜案例解释学习器的产生,特征 有标签的为有监督,无标签的为无监督,模型需要有泛化能力1.3.假设空间问题,将所有特征的不同分类罗列出来,所形成的所有情况,称为假设空间1.4误差永远存在,在经验中得到归纳偏好,为不存在的案例做预测时要有偏好,而不是一次一个新结果,要求机器有学习能力1.5发展 -案例 介绍等第二章2.1 经验误差与过拟合,认知误差与过拟合,找到对应优化策略2.2评估方法:留出法+交叉验证法+自助法+调参与最终模型2.3建立性能度量
2022-05-17 23:32:57
860
原创 PyCharm2021使用教程
Pycharm 是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,比如调试、语法高亮、Project管理,代码跳转,只能提示,自动完成,单元测试、脚本控制。此外,该IDE提供了一些高级功能,用于支持Django框架下的专业Web开发,同时支持Google App Engine,更酷的是Pycharm支持IronPython...
2022-01-24 10:35:08
4114
14
原创 【Hive】实战之电商平台销售数据探索分析案例(含数据)
本文最早发表在csdn时间为:2021-12-08本案例数据链接(数据是本人业余时间模拟数据,为防止滥用设置价格4.9,需要的自行下载):数据点我下载数据来源为工作中接触到的某公司后台数据,在完成工作相关分析后,本人对该部分数据虚拟重建用以复盘整理大家好,我是Captain,一个从业两年的数据分析师。公主号:CaptainData学习是为了不落后,整理则是为了不忘记。通过本文您将学习到:hive 相关知识shell 命令电商销售数据主要探索方向开窗函数使用1、背景某电商平台为
2021-12-08 19:14:34
14777
原创 2021_w_2.一个数据清洗的脚本
一个数据清洗的脚本#!/usr/bin/env python# -- coding: utf-8 --# @Time : DATEDATE{TIME}# @Author : wang vx:672377334# @File : v4.3.2深圳版本.pyimport datetimeimport osimport numpy as npimport pandas as pd# import timepd.set_option('float_format', lambda x: '
2021-11-30 16:06:40
1096
原创 No.0.0.2 numpy全总结
import numpy as nparr=np.array([1,2,3,4,5])arrarray([1, 2, 3, 4, 5])arr=np.array(['a','b',3,4,5])arrarray(['a', 'b', '3', '4', '5'], dtype='<U1')list_1=[i for i in range(100)]np.array(list_1)array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9,
2021-11-30 00:07:35
1892
原创 2021_w_.1.python 驱动MySQLdb(create_engine)代码
import pandas as pdimport numpy as npimport MySQLdbfrom sqlalchemy import create_engine# pip install mysqlclient# df = pd.read_sql(db_to_df_sql_list[i],con=mysql_conn)def cur_sql(sql_str,mysql_conn): mysql_conn=connect_mysql() cur =mysql_co
2021-11-29 15:41:22
1764
原创 2021_w_.2.python驱动mysql(MySQLdb) 代码案例
数据库参数:# !/usr/bin/env python# -- coding: utf-8 --# @Time : 2021/7/9 11:09# @Author : wang vx:672377334# @File : 穿透sql转py.py# @software : PyCharmimport MySQLdbimport pandas as pdimport osdef read_mysql_conf(conf_path): conf_data = pd.rea
2021-11-29 15:14:22
1096
原创 0.mysql基础 日期格式汇总
%M 月名字(January……December)%W 星期名字(Sunday……Saturday)%D 有英语前缀的月份的日期(1st, 2nd, 3rd, 等等。)%Y 年, 数字, 4 位%y 年, 数字, 2 位%a 缩写的星期名字(Sun……Sat)%d 月份中的天数, 数字(00……31)%e 月份中的天数, 数字(0……31)%m 月, 数字(01……12)%c 月, 数字(1……12)%b 缩写的月份名字(Jan……Dec)%j 一年中的天数(001……366)%H
2021-09-09 16:11:08
193
原创 2021_lg_01.sql_某招聘网站岗位数据分析案例(sql清洗,分析案例,纯代码)
库名:recruitment;1.新建库名#CREATE DATABASE IF NOT EXISTS recruitment DEFAULT CHARSET utf8 COLLATE utf8_general_ci; CREATE DATABASE recruitment CHARSET utf8;2.导入数据语句:mysql -uroot -p recruitment< [recruitment.sql(文件路径)]/*1.使用数据库*/use recruitment;
2021-09-04 03:33:18
536
原创 sql_数据分析之电商人货场模型分析之指标体系拆解+代码实操 (用户留存、RFM模型、 用户路径分析等)
2021-09-031.项⽬背景 随着电商⾏业近⼏年的迅猛发展,电⼦商务从早些年的粗放式经营,逐步转化为精细化运营。随着平台数据量的不断积累,通过数据分析挖掘消费者的潜在需求,消费偏好成为平台运营过程中的重要环节。本项⽬基于某电商平台⽤户⾏为数据,在MySQL关系型数据库,探索⽤户⾏为规律,寻找⾼价值⽤ 户;分析商品特征,寻找⾼贡献商品;分析产品功能,优化产品路径。...
2021-09-03 03:03:04
4775
原创 2021_lg_03.SQL实战:如何用sql计算用户留存问题
如何用sql计算用户留存问题一、留存1 .留存的含义:留存:指基准日到APP的用户在之后的n日当天返回APP的人数;留存率 = 基准日之后的n天当日返回的用户数 / 基准日的用户数 * 100%或者指基准日产生某个行为的用户在之后的第一天,第二天,第三天……第n天的当天再次产生该行为的 人数。2.留存的意义留存代表一个用户愿意再次使用你的产品;而一个产品能够被用户再次使用,意味着这个产品是能够满 足用户长期需求的,能够让用户产生一定粘性的产品。如今互联网产品大多为免费产品,依靠持续的广告转化
2021-09-01 21:54:45
4934
原创 2021_lg_04.sql_2021窗口函数的使用与偏移函数在日期资金上的使用案例代码
/*一、建表、统计与程序异常分析(60分)1.1某公司地区业务有两张门店相关的表(数据见:homework.xlsx): 一张为门店信息表:表名:area_table字段内容 字段名 字段类型 长度店铺id store_id varchar 10店铺位置 area varchar 20店长id leader_id int*/drop TABLE if EXISTS area_table;CREATE TABLE area_table(store_id varchar(10)...
2021-09-01 02:48:43
673
原创 mysql8.0以上安装手册
#公众号:船长数据分析#公众号:captain_data#分享各类数据分析资源我这里以我的目录举例下载mysql下载(认准后缀zip)一:前期准备1.解压,命名解压包为mysql8026在解压后的文件夹里新建文件my.ini内容如下[mysqld]# 设置3306端口port=3306# 设置mysql的安装目录 记得修改basedir=D:\MySQL\mysql8026# 设置mysql数据库的数据的存放目d录 记得修改datadir=D:\MySQL\mysql8
2021-08-25 00:01:59
614
原创 3.机器学习模型代码——逻辑回归代码案例工作实操
import numpy as npimport pandas as pdimport mathdf=pd.read_excel("data.xlsx",dtype=str)df.describe() 随机值 公司Id 时间内注册公司数量(月) 注册地址重合 关联公司涉案 法人有涉案记录(总次数) 社保人数 纳税金额 法人过境记录 预测结果
2021-08-23 23:41:06
1182
4
原创 2.聚类模型优化与训练
1.数据 2.代码import sklearn.metrics as skm #评估包from sklearn import cluster #聚类分析import numpy as npimport matplotlib.pyplot as plt# from sklearn.externals import joblib #保存数据 pkl 已更新包import joblibd=pd.read_excel("数据\\03.聚类si数据.xlsx")d.index=d.企业d
2021-06-27 19:18:02
953
原创 1.机器学习模型代码——聚类与评估参数
import sklearn.metrics as skmfrom sklearn import clusterimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport joblibdata=pd.read_excel("数据\\01.聚类数据1.xlsx")data <tr style="text-align: right;"> <th></th&
2021-06-27 02:39:19
598
原创 船长的error笔记
原因:最近xlrd更新到了2.0.1版本,只支持.xls文件。所以pandas.read_excel(‘xxx.xlsx’)会报错。可以安装旧版xlrd,在cmd中运行:pip uninstall xlrdpip install xlrd==1.2.0也可以用openpyxl代替xlrd打开.xlsx文件:df=pandas.read_excel(‘data.xlsx’,engine=‘openpyxl’)...
2021-06-08 17:55:03
442
1
停车场管理系统完整技术文档 VIP资源
2026-03-23
2022年5月最新最全县级shp文件.zip
2022-05-17
2022整理新版全国省市区县行政区划边界九段线矢量地图数据shp/arcgis
2022-05-06
全国省/市/县级行政区划及其他SHP文件.zip
2022-05-28
自动合并同列名表格工具
2022-05-19
02Python 版本 - Jupyter Noteboo.html
2020-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅