- 博客(72)
- 收藏
- 关注
原创 经验 // 用python自动生成word报告或excel报表
在和业务或领导多次交流后,报告或报表的模板比较固定了,这时候可以用python自动生成,提升质效。
2023-04-24 09:48:58 960
原创 读书笔记//《数据科学工程实践》
出版时间:2021年11月副标题:用户行为分析、A/B实验、SQLFlow作者们是一线互联网企业的数据科学家、数据分析师和算法工程师,主要就职于滴滴、部分就职于腾讯、快手等。点评:神仙下凡布道。本书让我领略了大厂如何运用最新数据技术解决商业问题。有点小瑕疵就是,有部分章节的引用案例不是大厂实战,缺少说服力。再次感叹,平台和机会多么重要啊!
2023-04-20 12:49:55 346
原创 读书笔记//《用户画像》之数学模型的应用
延伸应用:对于每个用户来说,其身上同一个标签出现的次数越多,该标签对于这个用户来说越重要,该标签中全部用户的所有标签产生的标签集中出现的次数越多,该标签的重要性越低。延伸应用:随着时间的推移,用户的历史行为和当前行为的相关性不断减弱。用户标签权重=行为类型权重 * 时间衰减 * 用户行为次数 * TF-IDF计算标签权重。通过以上公式,可以对用户特征库的行为数据计算权重标签,筛选出与用户行为相关性最大的标签。通过对用户的标签构建“同现矩阵”的方式对标签进行聚类。应用:标签相似度计算。应用:用户价值类标签。
2022-09-23 17:12:41 321
原创 分享材料(不断更新)
1.Apriori算法及关联规则链接: https://pan.baidu.com/s/1cpQkORm7k75ZB5k7zuyalg 密码: nq5c2.基于ARIMA模型的餐厅销量预测链接: https://pan.baidu.com/s/1GtL1nW6bTMT3ckYs5L7tIw 密码: 89st3.电商产品评论数据情感分析链接: https://pan.baidu.com/s/1ZIxyfzd-gL7y6RMTlJfFNQ 密码: s2p94.产品营销模型链接: https:
2021-03-10 17:50:30 9613 4
原创 Python统计检验(一)
一、简介介绍了8种常见的统计检验方法,包括方差分析、卡方检验、t检验等。首先简单回顾统计检验方法的作用、原假设、应用场景等,然后用Python实现并解读结果。同时,为获取直观理解,穿插展示了热力图、Q-Q图、小提琴图、散点矩阵图、交互效果图等可视化图表。内容重在实战,不涉及高深理论知识及推导。重要事情说三遍~想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站二、框架三、附部分代码及输出#相关系数plt.figure(figsize=(15,1
2020-07-25 05:10:43 982
原创 【机器学习算法实战3】产品营销模型之建置及预测(CDA赛题)
一、案例介绍这是CDA数据分析网站的一个赛题,A公司希望发掘用户购买产品的行为习惯,建立产品精准营销模型,对有意向的客户进行精准营销,增加收入,减少开支。将通过混淆矩阵(Confusion matrix)来评价分类模型的准确率,准确率越高,说明正确预测出响应营销效果越好。本次实战以官方公布的评分标准accuracy为目标进行参数调优与建模。又探索了在不同成本收益模型下,选择不同的模型评估指标,最终得到最高的潜在盈利预测。附赛题网址:https://contest.cda.cn/info/id/6.重
2020-07-09 09:53:14 1453 4
原创 Python文本挖掘练习(五)// 电商产品评论数据情感分析
第一部分 案例简介本案例首先利用Python文本挖掘技术,对碎片化、非结构化的电商网站评论数据进行清洗与处理,转化为结构化数据。然后对文本数据进一步挖掘与分析,采用决策树算法构建情感分类模型,探索用机器学习算法对评论标注type的可能性;依据情感词库匹配情感词,计算每条评论的情感值,进而机器标注每条评论的正负类型type,用词云图直观呈现正负评论的关键词,初步获得用户的反馈意见。最后利用gensim库构建主题挖掘模型,深入了解用户的意见、购买原因、产品的优缺点等。说明:本案例侧重分析思路及代码实现,不深
2020-07-03 22:19:27 16190 9
原创 【机器学习算法实战2】基于Apriori算法的零售商品购物篮分析
一、案例介绍了解顾客的购买习惯和偏好对商家非常重要。挖掘分析商品之间的关联性,掌握顾客的购买行为特征,以此为依据来制定行动策略,如商品摆放、商品定价、新品采购集合、促销策略等等,可以帮助商家提高销量获取更多利润。本视频首先回顾关联分析的相关知识点,带领大家一起用python手写Apriori算法,最后对零售商品购物篮数据挖掘有效的关联规则。重要事情说三遍~想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站想听我讲案例,请点这里,进入B站二、框架附部分代码及输出..
2020-07-01 12:51:00 4063 8
原创 Python算法总结(十一)Apriori算法(附手写python实现代码)
一、算法类型无监督算法二、算法原理(1)算法流程(2)指标三、手写Python算法(1)产生频繁项集def create_c1(dataset): """ #辅助函数1 函数功能:⽣成第⼀个候选项集c1,每个项集只有1个item 参数说明: dataset:原始数据集 返回: frozenset形式的候选集合c1 """ c1=[] for transaction in dataset: f
2020-07-01 12:37:44 6998 2
原创 Python算法总结(十)// 优点、缺点和参数
注:本文总结参考《Python机器学习基础教程》,感谢作者!算法一神经网络MLP算法优点给定足够的计算时间和数据,仔细调节参数,神经网络相对其他机器学习算法表现往往最好。算法缺点(1)需要很长的训练时间(2)MLP在均匀数据上性能最好。如果数据包含不同种类的特征,基于树的模型可能表现更好。、(3)隐层层权重可视化,但难以解释关键参数(1)hidden_layer_sizes参数,层数和每层的隐单元个数。每个隐层的结点个数通常与输入特征个数相近。(2)activation参数,(3)a
2020-06-30 08:53:29 825
原创 【机器学习算法实战1】小额信用贷款预测
B站视频链接一、介绍本案例将涉及算法填充缺失值、管道式网格搜索、阈值调优、对未知数据的预测等,分别采用逻辑回归、决策树、XGBoost和MLP神经网络4种算法进行模型构建与评估,参数调优的第一性指标:auc值。同时深入讲解ROC曲线、K-S曲线的表现。二、框架1 案例简介2 数据展示3 特征工程4 探索分析5 数据预处理6 模型构建与评估(4个算法)7 阈值调优8 预测...
2020-06-26 10:24:52 1461 3
原创 模型评估与改进(四)// 样本不均衡
一、什么是样本不均衡?回答:在有监督分类算法中,标签的类别比重差异大。二、如何从采样角度纠正样本不均衡?回答:1、上采样(over-sampling):通过增加分类中少数类样本的数量来实现样本均衡。比较好的方法有SMOTE算法,通过插值的方式加入近邻的数据点。2、下采样(under-sampling):通过减少分类中多数类样本的数量来实现样本均衡。这个方法可能导致信息缺失,为克服这一缺点,RandomUnderSampler丢掉更多类别边界部分的数据。from imblearn.over_sam
2020-06-19 13:59:16 1332
原创 Python文本挖掘练习(四)// 词云图
一、练习目标1、掌握结巴分词,增加不在jieba的新词,剔除停用词,分词后只保留词性为n的词;2、利用Counter函数统计文档的词语频次;3、安装wordcloud,制作词云图。二、步骤与代码#********* 步骤一 ********##获取当前路径import oscwd=os.getcwd()Data_Folder=cwd+'\Demo5Files'#走访文件from os import walkfrom os.path import joinfile_list=[
2020-06-12 22:48:44 756
原创 Python算法总结(九)集成算法
注:本篇文章不涉及模型参数调优。参数调优是一个重要的大话题。1、什么是集成算法?多个模型集成在一起的模型叫做集成评估器ensemble estimator,组成集成评估器的每个模型都叫做基评估器base estimator或弱学习器。2、集成算法有哪些?装袋法Bagging提升法Boosting堆叠法Stacking3、什么是装袋法Bagging?Bagging选用相同的弱学习器作为基模型,每个基模型的训练数据不是全部的数据集,而是通过“有放回的随机抽样”得到的随机子集,预测时各个基模型进行
2020-06-12 22:45:25 1305
原创 Python文本挖掘练习(三)// 文本聚类
一、练习目标1、运用tfidf技术进行词转向量2、构建KMeans模型用于文本聚类注:本次练习不涉及文本分词。二、步骤与代码附聚类效果评估将聚类结果与新闻真实分类进行比较,总体新闻分类(聚类)的准确率达到93%。...
2020-06-11 23:11:01 1782 3
原创 Python文本挖掘练习(二)// 情感分析
一、练习目标1、掌握读取csv文档内容,掌握词转向量2、构建决策树模型用于评论数据集的正负情感分类3、安装graphviz软件,画决策树注:本次练习不涉及文本分词、模型参数调优。二、步骤与代码...
2020-06-11 22:59:15 883
原创 Python文本挖掘练习(一)// 新闻摘要
一、练习目标1、掌握读取文档内容、文章分句、文本分词的方法2、掌握文本向量化,剔除停用词3、掌握用cosine方法计算文档相似度,并基于此提取文档摘要4、将过程封装成函数,方便调用二、步骤与代码三、封装函数def summary(path,num_summary=2): ''' 函数功能:实现文本摘要 参数说明: path:文档路径 num_summary:摘要长短 返回: result:摘要
2020-06-11 22:48:33 1355
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人