Python 数据分析师
欢迎订阅~
可以访问我的主页,加入QQ讨论群。
我的Python全部自学笔记可以访问下面的链接进行查阅。
https://datayang.blog.csdn.net/article/details/128599278
Mr数据杨
知乎签约作者,搞Python大数据的日语文科生。
展开
-
用Python掌握QQ群聊天记录数据分析
当你打开QQ群时,你是否想过如何用Python提取里面的数据呢?随着社交媒体的兴起,QQ群成为了人们交流的重要平台,而提取这些数据可以帮助我们了解用户喜好和行为。那么,如何使用Python提取QQ群数据呢?这里做了一套脚本用于提取QQ群的消息并进行一些简单的处理。基础数据有了之后就可以进行其他的内容分析了。原创 2023-01-29 11:32:55 · 2078 阅读 · 0 评论 -
《口袋妖怪》大战:通过数据分析,一次性揭示最强王者,谁能成为最后的胜者?
最新游戏《Pokemon LEGENDS Arceus》发售啦!在这款游戏中,两种全新的口袋妖怪佐鲁亚和佐罗亚克受到了大家的关注。值得注意的是,这两种妖怪都是来自未曾出现过的普通幽灵类型。对于《口袋妖怪》的粉丝来说,这是一个非常令人期待的消息。普通类型在游戏中一直以来是一个较弱的类型,但这次普通幽灵类型却有望成为最强组合。那么现在就来下载这款游戏,体验一下这些新口袋妖怪的强大吧!原创 2022-02-17 15:05:59 · 13405 阅读 · 0 评论 -
LSA、pLSA、LDA、NMF、BERTopic、Top2Vec进行主题建模
在自然语言处理(NLP)中,主题建模是一种技术,用于从文本数据中发现隐藏的语义主题(或主题)。这是一个无监督机器学习问题,即在没有标签或标签的情况下学习模式。主题建模的应用非常广泛,可用于搜索引擎、情感分析、新闻聚类和摘要生成等许多任务。在这里将探讨主题建模的不同方法,包括传统的统计方法和最新的基于深度学习的方法。我们还将介绍每种方法的优点和缺点,并提供端到端的 Python 示例。原创 2023-01-04 17:25:42 · 1451 阅读 · 0 评论 -
NLP自然语言处理Gensim词向量word2vec常见应用
Gensim是一个用于自然语言处理(NLP)的开源 Python 库,它可以帮助你进行文本处理。Gensim有许多优秀的特性,使它成为进行NLP文本处理的理想选择。其中一个原因是Gensim提供了丰富的文本处理功能。例如可以使用Gensim进行文本分词、词干提取、词性标注、句法分析、主题建模等。这些功能对于进行文本分析和挖掘信息都非常有用。另一个原因是Gensim非常易于使用。它提供了简单而直接的API,能够快速上手。同时Gensim也非常灵活,可以轻松集成到你的NLP流程中。原创 2023-01-04 15:20:39 · 1071 阅读 · 0 评论 -
探索用于NLP的Gensim库
Gensim的名字源自于"Generate Similar," 这个词是指Gensim可以用于生成类似的文本。这个词也可以被解释为"Generative Similarity," 表示Gensim可以用于生成相似的文本。Gensim是一个用于文本处理的库,可以用于计算文本之间的相似度,以及生成类似的文本。原创 2023-01-04 11:59:34 · 1151 阅读 · 0 评论 -
NLP自然语言处理NLTK常用英文功能汇总
自然语言处理 (NLP) 是一门研究如何让计算机程序理解人类语言的学科。NLTK (Natural Language Toolkit) 是一个 Python 包,可以用于 NLP 的应用开发。很多数据都是非结构化的,而且包含可以被人类读懂的文本。在用编程方式分析这些数据之前,我们需要对它们进行预处理。在本教程中,我们将首先了解可以使用 NLTK 进行的文本预处理的任务类型,这样你就可以准备好在未来的项目中使用它们。我们还将学习如何进行一些基本的文本分析和创建可视化效果。原创 2023-01-03 14:19:37 · 1211 阅读 · 1 评论 -
TF-IDF原理及多国语言应用
TF-IDF 是一种常用的自然语言处理技术,它可以帮助我们提取文档中的关键词,从而更好地理解文档的内容。在自然语言处理中,关键词是非常重要的,因为它们可以帮助我们确定文档的主题。例如我们可以使用关键词来建立文档的索引,从而更容易地检索文档。此外TF-IDF 还可以帮助我们对文档进行分类和聚类。例如我们可以使用关键词来将文档分类为不同的类别,或者将相似的文档聚在一起。因此学习 TF-IDF 对于自然语言处理是非常有用的,可以帮助我们更好地理解文档的内容,并帮助我们进行文档分类和聚类。原创 2022-12-27 14:27:57 · 1223 阅读 · 0 评论 -
当下流行的中文分词模块jieba
可以使用 jieba 的 add_word() 函数向分词器添加自定义词典。import jieba # 将自定义词添加到分词器中 jieba . add_word("自定义词") # 将句子分解为单词 seg_list = jieba . cut("这是一个句子,包含了自定义词") print(seg_list) [ '这' , '是' , '一个' , '句子' , ',' , '包含' , '了' , '自定义词' ]原创 2022-12-26 14:53:42 · 1074 阅读 · 0 评论 -
什么是文本挖掘以及应该如何学习?
文本挖掘是一种从大量文本数据中提取信息和知识的方法。它通常使用自然语言处理技术来识别文本中的模式和关系,并使用数据挖掘技术来发现隐含的规律。文本挖掘的应用领域广泛,包括情感分析、市场调研、客户服务、新闻摘要、舆情分析等。原创 2022-12-26 13:52:39 · 1176 阅读 · 0 评论 -
Python数据处理Tips多层嵌套Json数据展平到DataFrame
在工作中需要处理嵌套数据(尤其是无模式的 MongoDB 日志等)或者是网络爬虫抓取下来的多层嵌套数据需要展平处理。如果将它放在 BigQuery 中则很容易通过使用 WITHIN 等的查询将其更改为矩阵形状。那么是否可以编写一个可以很好地完成它的库,Pandas 有一个名为 json_normalize 的 API。原创 2022-11-15 10:19:58 · 4248 阅读 · 0 评论 -
解决Python无法写入Mongodb数据仓库方法汇总
使用Python进行数据抓取业务存储到Mongodb数据库的过程中,如果是新手一般会遇见无法写入的情况,出现下面这种情况非常让人头疼。这里汇总了windows系统出现的问题以及最终的解决办法。原创 2022-10-21 09:48:41 · 4873 阅读 · 0 评论 -
使用LSTM模型进行产品销售额的预测产品订单效益最大化
销售的中心任务之一就是销售预测,无论企业什么性质、企业规模大小、销售人员的多少,销售预测影响到包括计划、预算和销售额确定在内的销售管理的各方面工作。销售预测是指对未来特定时间内,全部产品或特定产品的销售数量与销售金额的估计。商家总是会想尽办法想预测出自己商品未来的销售情况,以便能够提前做出合理的备货策略,在保障销售最大化的同时也能将剩货风险降到最低。当然,商品销售预测能力也是各个销售企业必备的一项数据分析基础技能。准确利用技术实现销售预测,往往能给商品销售带来事半功倍的效果。原创 2022-09-24 10:04:24 · 4942 阅读 · 0 评论 -
使用机器学习预测客户的下一个购买日是哪一天
在数据驱动增长系列中解释的大多数行为背后都有相同的心态使用给定的数据集,构建了一个机器学习模型用于预测零售店的在线客户是否会在他们最后一次购买之日起 n 天内进行下一次购买到底是哪一天?给与各种刺激消费的手段。原创 2022-09-23 16:20:24 · 6737 阅读 · 0 评论 -
使用多种机器学习进行客户预流失与否预警的方法
在过去我们常常讲一个企业如何去获客,但我们说的的获客、拉新或者市场营销,它的关注点是比较偏向于新用户,希望有源源不断地新用户进来,但用户增长归根结底需要把关注点拓宽到用户的整个生命周期中,很重要的一环就是如何防止用户流失,当用户流失之后怎么把他拉回来。因此,用户流失预防运营在用户运营工作中有着极其重要的作用。这次和大家分享从数据层面讲用户流失的运营思路和方法,和用户不能轻易说再见!用 kaggle 上一个比较经典的电信用户流失的数据来学习一下如何预测给时期内可能流失的用户。基本信息和描述数据预处理原创 2022-09-23 10:32:19 · 6505 阅读 · 0 评论 -
用户终身价值利用xgboost进行LTV预测
在对用户进行细分的时候需要衡量用户的一个重要指标就是用户生命周期价值。不管是什么投入最终的目的是为了盈利,当然如何识别正确的用户周期价值就至关重要了。其中用户的终身价值计算就非常容易。可以通过一个时间窗口期,即具体的时间可以是年,可以是月,也可以是日计算,通过【收入-成本】的方式即可得到,这样就获得了历史生命周期价值。基于此构建了用户的基础数据那么就可以根据此预测用户的终身价值。原创 2022-09-22 14:44:21 · 4922 阅读 · 3 评论 -
使用机器学习进行客户终身价值和RFM模型分析
RFM 细分使营销人员能够通过与其个人行为更相关的沟通来定位特定的消费者群体,从而提高响应率并提高忠诚度和客户生命周期价值。RFM 细分与其他细分方法一样,是识别应区别对待的消费者群体的有效工具。RFM 代表Recency:近况,客户最近的购买时间。Frequency:频率,客户购买的频率。Monetary:货币,客户在购买上花了多少钱。根据 RFM 可以将用户分成3个等级低价值用户:与其他人相比不太活跃的客户,不是非常频繁的买家/访客,并且产生的收入非常低 - 零 可能是负收入。原创 2022-09-22 12:15:58 · 6847 阅读 · 0 评论 -
通过运营技能地图使用Python整理用户指标及订单跟踪
日常企业运营为了创造更多的收益需要获取更多的客户、更多的订单、更多的收入、更多的注册、更高的效率……这些指标都可以通过基础的《运营技能地图》进行获取。其中具体的指标基于北极星指标(North Star Metric),也叫作第一关键指标(One Metric That Matters)已经经过了专业的整理,这种指标不仅能够客观的反应问题,而且还能在日常经营过程中进行监控并且及时反应问题。原创 2022-09-22 11:13:13 · 6516 阅读 · 0 评论 -
发掘潜在用户利用xgboost进行产品营销响应预测
随着市场的不断变化和技术的不断发展,营销人员的工作内容和结构也不再拘泥于过去传统的理论概念,但是如何依靠最新的技术帮助企业实现销量增长、用户留存等问题,是当下很多企业打破困境的焦点问题。原创 2022-09-21 17:35:21 · 6428 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(3)生成随机数据验证
继上一篇,基于训练好的模型需要对训练的模型进行验证,并提交训练结果。由于资源有限仅仅跑了一次模型得到一个结果能把整个流程实现下来,有机器资源的小伙伴可以自行尝试更高的参数用于计算。原创 2022-09-12 18:16:40 · 6582 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(2)模型训练和验证
继上一篇,这次介绍第二部分模型训练和评估。主要应用的原理是图像嵌入和嵌入模型。为了比较图像可以使用模型生成嵌入作为它们的表示,然后计算图像之间的距离/相似度以搜索最相似的图像。可以使用没有最后一个分类层的预训练模型并添加两个线性层。自预训练 RESNET 的特征将用作嵌入层的输入,嵌入层的结果将用于分类层。原创 2022-09-12 17:58:28 · 7049 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(1)项目介绍和数据预处理
据报道,每年有20000妇女被拐卖。其中有一大部分进行罪犯在酒店房间内给人口贩运的受害者拍照,如下例所示。在警方调查的过程中识别这些酒店对于破案至关重要,但由于像素导致图像质量不高,以及摄像机角度问题,通常会给警方带来不小的挑战。打击人口贩运的酒店识别竞赛是计算机视觉和模式识别会议CVPR 2022上FGVC9(细粒度视觉分类)研讨会的一部分。但即使图像中没有受害者,酒店识别通常也是一项具有挑战性的细粒度视觉识别任务,但是通过 ResNet 网络能够很好的解决棘手的问题。原创 2022-09-12 17:17:58 · 6989 阅读 · 0 评论 -
10种流行的机器学习算法进行泰坦尼克幸存者分析
还记得上世纪轰动全球的泰坦尼克吗?1912年4月,正在处女航的泰坦尼克号在撞上冰山后沉没,2224名乘客和机组人员中有1502人遇难,这场悲剧轰动全球,遇难的一大原因正式没有足够的就剩设备给到船上的船员和乘客。虽然幸存者活下来有着一定的运气成分,但在这艘船上,总有一些人生存几率会更大,今天就用当下流行的10种最流行的机器学习分类算法的来帮大家计算一下哪些人更容易幸存。原创 2022-09-07 16:22:47 · 6519 阅读 · 0 评论 -
入行数据分析要知道什么是机器学习优化思想
近年来备受关注的机器学习有很大不同。机器学习是一种主要用于计算未来预测的方法,而数学优化则使用这些预测来执行模拟和自动化决策。粗略地讲机器学习计算明天下雨的概率,数学优化决定是否带雨伞。如果只是说明天,有 60% 的几率会下雨,仍然需要决定之后要做什么。例如在计算当天的满意度之后,决定你应该开车去。因此数学优化是加速机器学习项目和业务决策的非常强大的工具。原创 2022-09-05 18:44:21 · 6632 阅读 · 0 评论 -
入行数据分析要知道数据挖掘到底是做什么的
数据挖掘是一种技术,例如可以基于对每个客户的深刻理解,在公司与客户之间形成长期良好关系的方法和策略。更具体地说可以说是分析公司收集的大量数据,发现有用的模式和规则,并支持营销活动的统计方法和工具的集合。其中最经典的案例是啤酒与尿布的故事,通过关联规则销售。大多数人会认为这只是一个轶事,没有确凿的证据表明将两者放在同一楼层实际上会增加销售额。甚至有人会认为消费周期决定的,或者是一个偶然现象。原创 2022-09-05 13:12:43 · 6702 阅读 · 0 评论 -
入行数据分析要知道的多元分析和实际应用的常用分析方法
企业在研发、生产过程、市场研究、销售预测等各个方面都遇到了复杂的现象,并试图通过多元分析来解决这些问题。经常会使用CRM系统来解决业务中发现的问题,但基于消费者购买数据和其他行为数据和产品数据,预测客户将购买什么,并提供最优的产品和信息。多元分析是支持分析能力的重要工具和武器,解决的是多变量分析在将数据放入软件时总是会产生某种结果,因此也有可能得出错误的结论。此外也存在用常规方法无法很好地分析大数据的情况,以及仅靠现有软件和理论无法解决的问题。多变量分析是一种统计方法,是根据分析师的假设阐明大量信息(有关变原创 2022-09-04 19:08:50 · 6733 阅读 · 0 评论 -
入行数据分析要知道什么是正态分布和其他变量分布
正态分布是对称的,中间的平均值最高,两边的平均值更低。那么等腰三角形也是正态分布吗?对正态分布形状的更准确描述是 一条形如钟形或山形的曲线。用数学公式来表示正态分布的形状,可以很容易推导出正确的曲线。如果利用一个水箱来如何显示正态分布呢?从水龙头出来的水总是被中间的分离器分成两半,一个接一个地分成两半。进入第一个圆筒的水在下降一个台阶时被分离器分成两份,所以通过第二个圆筒的水量左右两边是一样的。同样第三个缸也有一半的水,但中间缸将从两个缸接收水,因此与两端缸相比,通过的水量是其两倍。...原创 2022-09-01 14:50:36 · 6395 阅读 · 0 评论 -
入行数据分析要知道什么是单变量分析和基础统计
例如某人的考试成绩单数据。此外一个科目的成绩和平均分的时间序列数据也是单变量的,因为只有一个数据。后者还有另一个指标叫做时间,所以它可能是一个双变量,如果时间的进展被认为是恒定的(有固定的间隔),可以被认为是一个单变量。例如当获得某个科目的考试成绩等数据时,计算该班级的平均分是很常见的。如果知道自己的得分是高于还是低于平均分,则可以查看自己的排名情况。甚至可以找出最高分是多少,谁的得分最低。如果想更详细地了解自己的位置,也会想出偏差值的概念。为了得到偏差值,需要知道每个人的分数分布有多少(什么样的分布)。.原创 2022-09-01 13:47:36 · 6400 阅读 · 0 评论 -
入行数据分析要知道什么是数据&数据分析
假设一家制造商开发了一款新产品。为了确认与现有产品的差异,抽取了 100 名产品使用者的人进行测试。现有产品和新产品测试结果。从这张表看 55%的患者评价现有产品为好,而新产品为 58%,增加了3个百分点。会不会觉得新产品开发成功了?这里不讨论这 3个百分点是否有显着差异,但如果产品规划师、开发人员或研究人员应该多分解一点,按性别看或者做更详细的分析。显示了男性和女性之间的差异。从这张表看新产品似乎对男性有效,但现有产品似乎对女性更好。如果继续按原样销售该产品,我们就会发布一款对女性不太有效的产品。原创 2022-08-24 14:57:24 · 6761 阅读 · 0 评论 -
入行数据分析要知道什么是统计
日常生活中我们被无穷无尽的数据所包围,数据是『为了某种目的而获得的数字和代码的集合』,即使模糊地看待它们,也无法从中得到任何东西。通过统计数据的个数、求平均值、看趋势、分类,可以第一时间了解数据的性质和意义,并加以利用。一定数量的数据总是伴随着变化(不确定性)。例如一所学校的每个人都有相同的考试成绩,那么给出平均分数、排名或偏差就没有意义了。如果天气和温度一年四季都保持不变,那么就不需要天气预报,也不需要绘制温度图表。然而实际上,分数因年级和班级而异,天气和温度也因地区和一天中的时间而异。.........原创 2022-08-18 17:35:16 · 6712 阅读 · 0 评论 -
数据科学必备Python使用Panda进行数据可视化
只需一行代码就可以为数据添加功能强大且信息丰富的可视化。接下来将探索一些最令人难以置信的数据可视化技术,可以将它们与Python中的Pandas库一起使用。涵盖从基本绘图到高级技术的所有内容。可以自自信地使用Pandas创建漂亮的数据可视化!pandas的绘图仅限于简单的数据可视化,如果需要更高级的互动的数据可视化内容可以学习pyecharts相关内容。......原创 2022-07-28 12:15:25 · 6898 阅读 · 0 评论 -
入行数据分析要知道什么是离散程度度量
数列中各个数值之间的存在差距和离散程度。离中趋势的测定是对统计资料分散状况的测定,找出各个变量值与集中趋势的偏离程度。通过测定离中趋势,可以清楚地了解一组变量值的分布情况。数据的离散程度越大,那么集中趋势的这个指标的代表性就越差。...原创 2021-06-04 09:34:42 · 36768 阅读 · 0 评论 -
入行数据分析要知道什么是独立性检验&拟合优度检验
统计检验亦称『假设检验』。根据抽样结果,在一定可靠性程度上对一个或多个总体分布的原假设作出拒绝还是不拒绝(予以接受)结论的程序。决定常取决于样本统计量的数值与所假设的总体参数是否有显著差异。这时称差异显著性检验。检验的推理逻辑为具有概率性质的反证法。例如,在参数假设检验...原创 2021-06-08 08:31:02 · 37100 阅读 · 0 评论 -
入行数据分析要知道什么是数值型数据
数值数据是一种以数字表示的数据类型,而不是自然语言描述。有时称为定量数据,数值数据总是以数字形式收集。数值数据与其他数字形式数据类型的区别在于它能够对这些数字进行算术运算。.........原创 2021-06-05 14:06:42 · 36041 阅读 · 0 评论 -
入行数据分析要知道什么是统计量&抽样分布
统计数据的抽样分布是一种概率分布,是通过从同一总体中抽取许多给定大小的随机样本而创建的。这些分布可以了解样本统计量如何因样本而异。抽样分布对于推理统计至关重要,因为它们允许在其他可能值的更广泛背景下理解特定样本统计。至关重要的是可以计算与样本相关的概率。抽样分布描述了各种样本统计的值的分类。虽然均值的抽样分布是最常见的类型,但它们可以表征其他统计量,例如假设检验中的中位数、标准差、范围、相关性和检验统计量。......原创 2021-06-06 14:32:38 · 41930 阅读 · 0 评论 -
入行数据分析要知道什么是标准计分&离差
在统计学中,标准分数是原始分数(即观察值或数据点)的值高于或低于正在观察或测量的平均值的标准偏差数。高于平均值的原始分数具有正标准分数,而低于平均值的原始分数具有负标准分数。标准分数的计算方法是从单个原始分数中减去总体平均值,然后将差值除以总体标准差。将原始分数转换为标准分数的过程称为标准化或标准化。结合偏差是变量的观察值与其他值之间差异的度量,通常是该变量的平均值。偏差的符号(正或负)报告差异的方向(当观察值超过参考值时偏差为正),值的大小表示差异的大小。...原创 2021-06-06 14:33:13 · 35981 阅读 · 1 评论 -
入行数据分析要知道什么是双变量的相关分析
双变量相关是统计学中广泛使用的术语。事实上,它于1561年进入英语,比大多数现代统计测试发现早了200年。它来源于拉丁词correlation,表示关系。相关性通常描述两种或多种现象同时发生并因此相互关联的效果。许多学术问题和理论研究这些关系。暴露在阳光下的时间和强度是否与患皮肤癌的可能性有关?人们越满意,就越有可能重复参观博物馆吗?老年人赚的钱更多吗?工资与通货膨胀有关吗?油价上涨会增加运输成本吗?然而,强调相关性并不意味着因果关系是非常重要的。...原创 2021-06-07 07:35:48 · 36443 阅读 · 1 评论 -
入行数据分析要知道什么是数据的种类
统计中有不同类型的数据,用于被收集、分析、解释和呈现。数据是记录的个别事实信息,用于分析过程的目的。数据分析的两个过程是解释和呈现。统计是数据分析的结果。数据分类和数据处理是重要的过程,因为它涉及大量标签和标签来定义数据、其完整性和机密性。...原创 2021-06-05 11:43:31 · 35816 阅读 · 1 评论 -
入行数据分析要知道什么是分类型数据
分类数据是一组信息的集合。如果一个组织或机构试图获取其员工的生物数据,则生成的数据被称为分类数据。该数据被称为分类数据,因为它可以根据生物数据中存在的变量(例如性别、居住状态等)进行分组。分类数据可以采用数值(例如“1”表示是,“0”表示否),这些数字没有数学意义,既不能将它们加在一起,也不能彼此相减。............原创 2021-06-06 14:33:22 · 35607 阅读 · 0 评论 -
入行数据分析要知道什么是概括性度量
成为一名合格的数据分析师除了熟悉业务、掌握业务分析思维和工具外,统计学也是数据分析师的必备技能最重要的部分。统计学为数据分析提供理论基础,但是从业者面对很多复杂的数学公式和推导很难理解,市面上大部分的书籍都是面向高校教育的统计学书籍,专业性较强,对于数据分析师来说其实并不需要掌握那么细。...原创 2021-05-31 19:49:05 · 35868 阅读 · 3 评论 -
Python数据处理Tips日期、时间数据处理方法汇总
将日常工作中遇到的处理时间、日期的内容汇总。原创 2021-02-09 17:46:08 · 32069 阅读 · 0 评论