machine learning
文章平均质量分 51
佛系人僧
hello ego.
展开
-
国产爬虫库feapder使用心得
爬虫框架feapder细要原创 2022-07-03 10:11:41 · 1998 阅读 · 0 评论 -
COM自动化使用电脑程序
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、COM是什么?二、使用步骤1.打开EXCEL2.在Excel中打开文件总结前言Python有许多本地创建通用Microsoft Office文件类型的选项,包括Excel、Word和PowerPoint。然而,在某些情况下,使用纯python方法解决问题可能太困难了。幸运的是,python有一个名为pywin32的“python for Windows Extensions”包,它允许我们轻松地访问Windows的组.原创 2022-03-09 22:44:10 · 1218 阅读 · 0 评论 -
easydl的遍历文件夹批量识别程序
import osimport jsonimport base64import requestsclass pic_recog: def __init__(self, app_key, app_secret): # self.app_id = app_id self.app_key = app_key self.app_secret = app_secret self.token_url = 'https://aip.bai原创 2022-02-26 13:09:23 · 219 阅读 · 0 评论 -
关于安装深度学习环境以及调试rembg库出现的问题的脑图归纳(backup)
主要涉及从硬件购买到系统搭建以及深度学习环境配置,以及调试rembg库出现的一些问题的总结。原创 2022-01-31 08:51:11 · 1326 阅读 · 5 评论 -
基于产品的RFM模型的k-means聚类分析
首先我们可以看看数据集的数据形态:导入rfm数据,查看数据的统计学参数df =pd.read_csv('rfm.csv')df.describe()在实施Kmeans聚类之前,我们必须检查这些关键k-means假设-变量对称分布(不倾斜)-具有相同平均值的变量-方差相同的变量从这个表中,我们发现了这个问题:均值和方差不相等解决:使用scikit-learn库中的标量来缩放变量#绘制RFM值的分布f,ax = plt.subplots(figsize=(10, 12))plt.s原创 2022-01-26 17:04:03 · 2702 阅读 · 2 评论 -
基于产品的RFM模型分析
系列文章目录基于python的RFM模型分析提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录系列文章目录前言一、RFM是什么?二、分析步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:RFM模型是评价用户分层的一个非常有价值的模型,主要是通过评分的方式量化用户R/F/M三个行为层面上的数据,在日常工作中,RFM模型还经常与AARRR模型一起使用以对用户进行分类,以寻找我们运营中核心关注的用户,以花更多的精力去维护这些核心用户群体。提示:以原创 2022-01-26 12:10:00 · 2315 阅读 · 0 评论 -
产品分析之用户评论分析
文章目录前言一、NLP是什么?二、使用步骤1.引入库2.数据分析流程总结前言在产品运营上线后,总是有各种各样的反馈,我们一般需要对这些反馈进行统计,因为这些数据都是非结构化的数据,类似文本消息,语音消息,这时候我们可以考虑利用NLP对这些数据进行聚类或者分类,在NLP使用之前,我对NLP的各种产品以及Python自带的库也摸索了一遍,最终出于最优解决方案原则,选择了腾讯的NLP文本处理接口,主要利用了情感分析/智能分词的接口,当然有兴趣的小伙伴也可以尝试利用jieba库,snownlp去进行文本分析原创 2022-01-24 21:07:31 · 1558 阅读 · 0 评论 -
基于用户的产品分析之Cohort Analysis(群组分析,留存分析)
在产品正式上线后,我们需要对产品的客群对象进行分析,此时产品的群组分析会给予我们找到一定的方向。核心的维度:产品 ->客群,时间->聚类周期现象首先读取数据集:import numpy as npimport pandas as pd df = pd.read_excel('./Online Retail.xlsx')查看数据前五列/info#%%df.head()#%%df.info()通过结果,我们可以看到数据有8个字段,其中,Description列和C原创 2022-01-21 08:40:51 · 1379 阅读 · 0 评论 -
sklearn/pands one-hot 编码
import pandas as pddf = pd.DataFrame([['red', 'M', 10.1, 'type1'], ['blue', 'L', 12.5, 'type1'], ['white', 'XL', 13.3, 'type2']])df.columns = ['color', 'size', 'price', 'type']from sklearn.preprocessing import One原创 2022-01-03 11:43:10 · 543 阅读 · 0 评论 -
pandas 分类标签创建id映射
import pandas as pddf = pd.DataFrame([['red', 'M', 10.1, 'type1'], ['blue', 'L', 12.5, 'type1'], ['white', 'XL', 13.3, 'type2']])df.columns = ['color', 'size', 'price', 'type']print(df)# to convert type labels fro原创 2022-01-03 11:04:15 · 1029 阅读 · 0 评论 -
熵/分类误差/基尼杂质
import matplotlib.pyplot as pltimport numpy as np# 基尼杂质度def gini(p): return p * (1 - p) + (1 - p) * (1 - (1 - p))# 熵def entropy(p): return - p * np.log2(p) - (1 - p) * np.log2((1 - p))# 分类误差def error(p): return 1 - np.max([p, 1 - p])原创 2022-01-02 14:02:15 · 287 阅读 · 0 评论 -
逻辑回归分析 iris花
LR原创 2022-01-01 08:31:02 · 103 阅读 · 0 评论