数据分析师Weiss-CSDN博客

原创解决 Power BI 桌面版一直弹出登录弹窗的问题

PowerBI桌面版频繁弹出登录提示的解决方案：取消勾选所有需要登录的预览功能。

2025-10-14 15:12:16 1400

DBSCAN是一种基于密度的聚类算法，通过定义核心点、边界点和噪声点来识别任意形状的簇。算法需要设置邻域半径Eps和最小点数MinPts两个参数，核心思想是将密度相连的点划分为簇。其优势在于能处理噪声和发现任意形状簇，但参数选择困难且不适用于高维数据。确定Eps常采用K-距离曲线法，MinPts建议设为数据维度2倍以上。算法步骤包括寻找核心点、合并临时簇并最终形成聚类簇。DBSCAN不适合处理多密度数据集，且在大规模数据上计算效率较低。

2025-08-14 13:57:11 1117

原创从字符串中匹配多个关键词，优先匹配更长的关键词

【代码】从字符串中匹配多个关键词，优先匹配更长的关键词。

2025-02-17 19:29:34 328

原创 HanLP 2.x 的安装与使用

HanLP 2.x 版本的安装和使用，常用任务：分词、词性标注、实体词识别、语义依存的示例代码

2024-12-17 21:13:59 3708 1

原创 Matplotlib 内置的170种颜色映射（colormap）

Matplotlib 内置了170中颜色映射，将数值数据映射到色彩范围，可以根据自己的可视化需求，选择合适的颜色映射。

2024-12-04 19:50:46 3106

原创 Sklearn的datasets模块与自带数据集介绍

sklearn的datasets模块下，有一些自带的经典数据集，可以用load_xxx()形式的函数加载，本文介绍了这些经典数据集的内容、特征，以及加载它们的代码。

2024-09-10 22:38:19 2019 1

原创 Power BI 连接数据源/获取数据（Excel表、文件夹、数据库、网页等）

一、Power BI 支持的数据源类型Power BI支持广泛的数据源类型，包括文件、数据库、云服务和其他来源。文件：Excel、文本/CSV、XML、JSON、文件夹、PDF等。数据库：SQL Server, Oracle, IBM DB2, MySQL, PostgreSQL等。云服务：Azure SQL Database, Azure Blob Storage, Salesforce, Google Analytics等。其他来源：Web页面数据，R脚本和Python脚本输出等。

2024-06-21 11:01:07 9806

原创 Power BI 数据模型——创建表间关系

（但这种关系创建往往是直接在不同表的同名字段间创建关系，不一定是我们想要的关系，还可能会导致后续数据分析的错误。表之间可以存在多个关系，但同时只能有一个关系处于活动状态（在模型关系图中用实线表示），其他的关系则处于非活动状态（用虚线表示）。不建议使用，因为如果两个表之间是一对一的关系，那更好的方法是把这两个表合并成一个。两个表的对应关系，关系是有次序的，分为左表和右表，两个表之间有多对一、一对一、一对多和多对多四种关系，具体说明如下。，即用一端的表（通常是维度表）去筛选多端的表（通常是事实表）。

2024-01-17 15:00:00 5581 2

原创 Power Query 中常用的数据清洗、转换操作

天（从日期中提取出天）、每周的某一日（提取出日期是这一周的第几天）、一年的某一日（提取出日期是这一年的第几天）、一天开始值（提取出这一天开始的日期时间）、一天结束值（提取出这一天结束的日期时间）、星期几（提取出这一天对应的星期的中文名）：一年的某一周（提取出日期是这一年的第几周）、一个月的某一周（提取出日期是这一月的第几周）、星期开始值（提取出这一周的第一天）、星期结束值（提取出这一周的最后一天）：年（从日期中提取出年）、年份开始值（提取出这一年的第一天）、年份结束值（提取出这一年的最后一天）

2024-01-16 19:48:52 5612

原创 Power BI DAX 基本语法

（2）等号前面是表达式名称，如果DAX建立的是度量值，它就是度量值名称；（表名的单引号，列字段前的表名可以省略，但不建议这么做。（当变量被多次引用时，只会计算一次，可以提高性能。度量值用中括号[ ]包裹，如DIVIDE([本年累计销售额]，[上年累计销售额])。函数名不区分大小写，函数后必须有双括号，参数之间用逗号分隔，函数可以多层嵌套。回车符，本身无意义，主要用于设置 DAX 公式的格式，换行、缩进等。列字段用中括号[ ]包裹，并带上表名，如'订单表'[销售额]。表名用单引号' '包裹，如'订单表'。

2024-01-11 18:53:27 1551

原创 Python实现控制变量匹配抽样（对照匹配 case-control matching）

在保证对照组和实验组，在控制变量上属性相同的基础上，进行随机抽样。

2023-12-19 19:34:59 1440

原创 99% 用户都不知道的 Power BI / Power Query 隐藏功能

Power Query 的列分布、列质量、列概要功能，可以在没有进入分析之前，就粗略查看这列数据的分布和统计信息，方便数据的整理和清洗。

2023-11-09 16:50:00 1552

原创 Power BI 实现日历图，在一张图中展示天、周、月数据变化规律

2、视觉对象格式tab，（1）选择一周从哪一天开始（我们一般从周一开始）；（2）选择一行显示几个月的日历（我选择了6个，一年分两行展示）；（3）选择数据最大值的颜色（最小值为白色，中间颜色渐变）1、视觉对象tab，将日期拖入Date栏，将数据指标拖入Values栏。原图是用 d3 做的，我想用 Power BI 实现同样的展示效果。《数据可视化》这本书里介绍了一个时间可视化的案例（如下图所示），这样的展示形式对于所有随日期变化的数据都有参考价值。以日历图的形式展示数据的变化。

2023-10-26 14:07:40 3859

原创遮挡Windows电脑上烦人的微信/企业微信/钉钉消息闪烁提醒

用 Digital Clock 4 遮挡微信/企业微信/钉钉消息闪烁，减少分心。同时鼠标放上去可以看到新消息提示。

2023-10-25 14:05:43 4520 1

原创 Pandas pivot 数据透视之后，去除多余列索引，转换行索引

去除、转换Pandas数据透视后的行、列索引

2023-05-05 23:12:43 3182 1

原创 numpy数组运算的广播机制

numpy的广播机制

2023-01-16 18:19:45 423

原创 Pandas选择数据的方法：df[] / df.loc[x, y] / df.iloc[i, j]

Pandas主要通过索引来定位和获取数据。有df[] df.loc[x, y] df.iloc[i, j] 等几种常见的方式。

2022-06-17 18:04:10 1235

原创 python和pandas，求每一行最大的5个值，输出对应的列名和值

多个分类的比例或数值，需要找到每一行最大的5个（或者n个）比例或数值，以及它们对应的类别，并输出

2022-05-19 15:17:47 2931

原创【吴恩达机器学习笔记】第1周 - 线性回归与代价/成本函数

机器学习的模式：用训练集的数据，匹配一种算法，生成一个函数（h），这个函数可以输入x，产出y所以机器学习的关键在于：1、选择正确的算法，选择算法之后，函数h的形态就确定了，但是参数未知2、确定函数h的参数值：监督学习：通过训练集的x和y，共同确定参数值无监督学习：通过训练集的x，确定参数值最简单的算法：一元线性回归(Linear Regression）相同的算法，不同的参数值：成本函数（Cost Function...

2021-10-26 00:08:22 667

原创 python批量下载文件

在已经有文件url的前提下，批量下载文件。在excel文档中，保存url和文件名/编号。request读取网页内容，filetype判断文件类型，批量下载保存。# -*- coding: utf-8 -*-"""Created on Mon Feb 22 10:24:35 2021@author: weisssun"""import requestsimport pandas as pdimport filetypemyHeaders = {'User-Agent': "M

2021-02-22 11:40:50 6321

原创走出数据泥沼：数据清理第1步——来个简单粗暴的描述性统计吧

如果你完成了数据的审查，确认了第0步中每个问题的答案，这份数据的确符合你的需求。接下来就要审核一下数据中存在的问题了。一份原始的脏数据可能存在多少种问题？那恐怕是数也数不清的，常见的大概有：空白值与缺失值——数据空白——程序是区分不出空白值和缺失值的，只能由你区分错误值与极端值——错误或超出合理范围的取值——什么叫“合理”也是你来定义的重复值——重复变量和重复个案多值——某个变量在某个个案上有多个值——这是没法进入数据分析的，多半会被程序识别成字符串数据类型、格式错误这些问题，如果样本量

2020-12-20 22:22:20 697

原创走出数据泥沼：数据清理第0步

走出数据泥沼作为一个数据分析工作者，你在各种教科书和各种教程中，学会了各种各样的统计分析方法：从最一般的描述性统计，到差异检验、参数估计、相关回归，再到看起来很酷炫的各种建模方法、机器学习算法。这些是很有用没错。但是他们常常忘记了告诉你，所有这一切分析和有意义的结论，都是基于干净的、完整的、每个变量和个案都清清楚楚的数据实现的。而你在实践中几乎不可能拿到这样的数据，你实际面对的数据多半充满了缺失值、错误值、重复值、乱七八糟的字符串、糟糕的格式……投入数据分析软件或程序中之后，只会收获各种报错，分析结

2020-12-20 21:41:28 271

原创【吴恩达机器学习笔记】第2周 - python写代价函数/成本函数

吴恩达课程中，代码是用Octave写的，分为两个部分：1、定义代价函数；% 定义代价函数 Jfunction J = costFunctionJ(X, y, theta)m = size(X, 1); % 样本量predictions = X * theta; % 预测值sqrErrors = (predictions - y) .^2; % 预测值与真实值的方差J = 1/(2*m) * sum(sqrErrors); % 代价函数J2、给X，y，theta 赋值并调用函..

2020-09-21 17:11:45 4065 1

原创伪随机数和随机数种子

随机数种子 + 伪随机数生成器 = 伪随机数生成同样的随机数种子和同样的生成器总是生成同样的序列。伪随机数是有周期的，多次运行后结果会出现重复。真正的随机数必须使用专门的设备，比如热噪信号、量子力学的效应、放射性元素的衰退辐射，或使用无法预测的现象，譬如用户按键盘的位置与速度、用户运动鼠标的路径坐标等来产生。来自 <https://zh.wikipedia.org/wiki/%E4%BC%AA%E9%9A%8F%E6%9C%BA%E6%80%A7>真随机数生成网站这...

2020-09-16 10:42:04 1190

原创 pyhanlp安装与使用

HanLP是由何晗 @hankcs 开发的一个自然语言处理开源包，使用它可以完成中文分词、词性标注、命名实体识别、句法分析、文本分类等任务。HanLP本身是用java语言写的，github上虽然给出的是“pip install hanlp”的安装和使用方法，但我这个编程菜鸟实测用不了。要在Python里使用HanLP，可以安装pyhanlp一、Pyhanlp安装命令行安装指令：pip install pyhanlp二、java jdk-8安装但是，仅安装pyhanlp还无.

2020-06-25 11:08:54 1750

原创 Python+jieba+pandas+自己写的函数，简单实现用多个词典标注文本

做文本分析经常需要用词典标注，有时需要用很多个不同的词典做标注，每个词典单独跑一遍 or 每个词典都重新写代码显得很傻，所以我1. 统一了词典的格式：用excel存储，第一列是关键词，这一列对所有词典都是必需的；后面列是标签（维度划分），可能有1个或多个标签;2. 写了几个词典标注的函数，适用于：dict0-没有标签的词典；dict1-有一列标签的词典；dict2-有两列标签的词典。一般这几个就够用了，如果有更多的标签列，用相同的模式再写新的函数就行。3. 每个词典都可以通过调用这几个函数来标注

2020-06-19 17:20:35 930

原创《Python3网络爬虫开发实战》爬虫有关库的安装

请求库requestspip install requestsselenium 模拟浏览器操作pip install seleniumChromeDriver 谷歌浏览器驱动下载chrome浏览器对应的chromedriver.exe版本文件将chromedriver.exe文件放到Python的Scripts目录下 / 将其路径配置到环境变量GeckoDriver 火狐浏览器驱动下载geckodriver.exe文件将geckodriver.exe文件放到Pytho

2020-06-17 10:13:41 302

原创 Minepy—使用python计算最大互信息系数(MIC)

MIC 即：Maximal Information Coefficient 最大互信息系数。https://blog.csdn.net/qtlyx/article/details/50780400MIC可以用来衡量线性或非线性的相互关系。算法对比https://zhuanlan.zhihu.com/p/53092905MIC算法可以通过python的m...

2020-04-16 17:50:26 14453 1

原创 Python进行批量t检验

# -*- coding: utf-8 -*-"""Created on Mon Mar 30 14:57:51 2020@author: weisssun"""import pandas as pdfrom scipy import stats#导入进行T检验的stats模块import csvdf = pd.read_excel(r'D:\Python\datafile...

2020-03-31 13:50:21 1759

原创用python对字符串分词，并计算词数

# -*- coding: utf-8 -*-"""Created on Tue Mar 24 11:29:53 2020@author: weisssun"""import jiebaimport csvimport pandas as pdjieba.load_userdict(r"D:\Python\dict\userdict.txt")#加载用户词典 in...

2020-03-24 12:49:07 1986

原创用python将字符串中的表情（微信表情 [ ]）和普通文本拆分开来

有一堆包含表情（微信表情）的文本，要计算情绪量。表情和普通文本需要分开命中情绪词典。这里解决的是将字符串中的表情和普通文本拆分开来的问题。有两种方法：用正则表达式查找和移除表情用表情分隔符 ‘[’ 和 ‘]’ 将文本拆开，然后合并# -*- coding: utf-8 -*-"""Created on Thu Mar 19 16:37:54 2020@author: wei...

2020-03-19 23:37:26 1193 1

原创【python学习笔记】chardet模块检测编码

# -*- coding: utf-8 -*-"""Created on Wed Mar 18 14:16:16 2020@author: weisssun"""#chardet模块可以用来检测编码#判断位置编码的方法，是先收集各种编码的特征字符，根据特征字符的匹配进行判断#chardet模块已经收集了这样的特征字符#在调用该模块时，它就会将被识别数据的编码与特征字符库进行匹配，...

2020-03-18 15:09:36 431

原创【python学习笔记】copy方法

# -*- coding: utf-8 -*-"""Created on Wed Mar 18 12:15:12 2020@author: weisssun"""#参考链接：https://www.runoob.com/w3cnote/python-understanding-dict-copy-shallow-or-deep.html#涉及python的数据存储方式impor...

2020-03-18 13:51:40 211

原创【python学习笔记】使用xlrd读取excel文件

# -*- coding: utf-8 -*-"""Created on Wed Mar 11 14:27:05 2020@author: weisssun"""#xlrd和xlwt分别是excel读取和写入模块#但不建议使用xtwt写入excel文件#xlwt只能写入xls文件，不能写入xlsx文件#使用xlwt写入xls文件最多能支持65536行数据，如果写入过多，会报错...

2020-03-11 16:03:13 367

原创使用python将excel长文本中包含特定关键词的句子提取出来

# -*- coding: utf-8 -*-"""Created on Sun Mar 1 11:20:50 2020@author: weisssun"""import reimport csvimport pandas as pd#将长文本中包含特定关键词的句子提取出来#list_5g = []pattern = r'\.|/|;|\'|`|\?|"|\~|!|...

2020-03-02 18:27:38 6305 8

原创使用jieba分词计算txt中文本的词频

# -*- coding: utf-8 -*-"""Created on Tue Feb 25 17:37:55 2020@author: weisssun"""import jiebaimport reimport csvfrom collections import Counterstopw = [line.strip() for line in open(r'D:\P...

2020-03-02 18:21:02 611

原创 python合并excel文件，并将文件名作为新的一列

# -*- coding: utf-8 -*-"""Created on Mon Mar 2 10:13:57 2020@author: weisssun"""import osimport xlrdimport xlsxwriterfilePath = r'D:\Python\2020.02'#需合并的文件所在的文件夹路径f_name = os.listdir(...

2020-03-02 17:56:54 5644 12

Sun_Weiss的博客