
Python 数据科学
欢迎订阅~
可以访问我的主页,加入QQ讨论群。
我的Python全部自学笔记可以访问下面的链接进行查阅。
https://datayang.blog.csdn.net/article/details/128599278
Mr数据杨
知乎签约作者,搞Python大数据的日语文科生。
展开
-
基于SadTalker的AI主播,Stable Diffusion也可用
基于之前的AI主播的的学习基础和,这次尝试一下VideoRetalking生成效果。总体来说,面部处理效果要好于Wav2Lip,而且速度相对于Wav2Lip+GFPGAN也提升很多,也支持自由旋转角度,但是如果不修改源码的情况下,视频的部分截取稍微有点问题。这个训练图片还好,如果是做视频的话还是比较吃GPU资源的 16G显存是个起步配置。原创 2023-03-20 15:58:43 · 88 阅读 · 0 评论 -
基于ChatRWKV智能问答和内容创作
ChatRWKV是对标ChatGPT的开源项目,希望做大规模语言模型的Stable Diffusion,测试很一段时间确实很像ChatGPT,从使用方法和内容结果上都很相似,但是还有一些差异。原创 2023-03-10 10:31:25 · 361 阅读 · 0 评论 -
基于AI-Writer的小说写作
AI-Writer是一个能自动撰写小说的git开源项目,测试了一下效果还是不错的,而且对机器的要求不是很高,提供了N卡和A卡不同的版本的使用模型。先来看看效果吧。原创 2023-03-10 09:26:02 · 73 阅读 · 0 评论 -
基于Wav2Lip+GFPGAN的高清版AI主播
继上一篇的内容之后很多小伙伴反应一个问题就是生成的AI人物并不是很清晰,尤其是放到编辑器里会出现明显的痕迹,因此这次带来的了高清版的内容,如果不太了解这个项目实做什么的可以来先看一下效果。该项目暂时没有中文介绍,我这个应该是首发。基于Wav2Lip自制高清版,用自己形象做数字人清楚多了虽然说是自制但是也基于git大佬的源代码按照自己的需求进行的修改,整体的原理就是基于视频的每一帧进行高清处理,然后进行合并拼接成视频,最后拼接音频形成完整的视频。原创 2023-02-27 09:18:57 · 658 阅读 · 0 评论 -
基于MockingBird声音克隆
Mockingbird 是一种声音克隆软件,可以复制和编辑人类语音。这种软件通常用于语音模拟和生成新语音,但也可能用于欺骗和恶作剧。由于技术的进步,声音克隆软件越来越逼真,因此应谨慎使用。目前网络上的版本有很多,教程也是各种五花八门,我尝试看了几个代码都跑不通,自己折腾了一天终于完成了数据集预处理、模型训练应用的过程,效果还算可以,想要真的完美的克隆声音还需要技术的进步才可以。原创 2023-02-08 11:29:15 · 1011 阅读 · 0 评论 -
LSA、pLSA、LDA、NMF、BERTopic、Top2Vec进行主题建模
在自然语言处理(NLP)中,主题建模是一种技术,用于从文本数据中发现隐藏的语义主题(或主题)。这是一个无监督机器学习问题,即在没有标签或标签的情况下学习模式。主题建模的应用非常广泛,可用于搜索引擎、情感分析、新闻聚类和摘要生成等许多任务。在这里将探讨主题建模的不同方法,包括传统的统计方法和最新的基于深度学习的方法。我们还将介绍每种方法的优点和缺点,并提供端到端的 Python 示例。原创 2023-01-04 17:25:42 · 1451 阅读 · 0 评论 -
NLP自然语言处理Gensim词向量word2vec常见应用
Gensim是一个用于自然语言处理(NLP)的开源 Python 库,它可以帮助你进行文本处理。Gensim有许多优秀的特性,使它成为进行NLP文本处理的理想选择。其中一个原因是Gensim提供了丰富的文本处理功能。例如可以使用Gensim进行文本分词、词干提取、词性标注、句法分析、主题建模等。这些功能对于进行文本分析和挖掘信息都非常有用。另一个原因是Gensim非常易于使用。它提供了简单而直接的API,能够快速上手。同时Gensim也非常灵活,可以轻松集成到你的NLP流程中。原创 2023-01-04 15:20:39 · 1071 阅读 · 0 评论 -
探索用于NLP的Gensim库
Gensim的名字源自于"Generate Similar," 这个词是指Gensim可以用于生成类似的文本。这个词也可以被解释为"Generative Similarity," 表示Gensim可以用于生成相似的文本。Gensim是一个用于文本处理的库,可以用于计算文本之间的相似度,以及生成类似的文本。原创 2023-01-04 11:59:34 · 1151 阅读 · 0 评论 -
NLP自然语言处理NLTK常用英文功能汇总
自然语言处理 (NLP) 是一门研究如何让计算机程序理解人类语言的学科。NLTK (Natural Language Toolkit) 是一个 Python 包,可以用于 NLP 的应用开发。很多数据都是非结构化的,而且包含可以被人类读懂的文本。在用编程方式分析这些数据之前,我们需要对它们进行预处理。在本教程中,我们将首先了解可以使用 NLTK 进行的文本预处理的任务类型,这样你就可以准备好在未来的项目中使用它们。我们还将学习如何进行一些基本的文本分析和创建可视化效果。原创 2023-01-03 14:19:37 · 1211 阅读 · 1 评论 -
TF-IDF原理及多国语言应用
TF-IDF 是一种常用的自然语言处理技术,它可以帮助我们提取文档中的关键词,从而更好地理解文档的内容。在自然语言处理中,关键词是非常重要的,因为它们可以帮助我们确定文档的主题。例如我们可以使用关键词来建立文档的索引,从而更容易地检索文档。此外TF-IDF 还可以帮助我们对文档进行分类和聚类。例如我们可以使用关键词来将文档分类为不同的类别,或者将相似的文档聚在一起。因此学习 TF-IDF 对于自然语言处理是非常有用的,可以帮助我们更好地理解文档的内容,并帮助我们进行文档分类和聚类。原创 2022-12-27 14:27:57 · 1223 阅读 · 0 评论 -
当下流行的中文分词模块jieba
可以使用 jieba 的 add_word() 函数向分词器添加自定义词典。import jieba # 将自定义词添加到分词器中 jieba . add_word("自定义词") # 将句子分解为单词 seg_list = jieba . cut("这是一个句子,包含了自定义词") print(seg_list) [ '这' , '是' , '一个' , '句子' , ',' , '包含' , '了' , '自定义词' ]原创 2022-12-26 14:53:42 · 1074 阅读 · 0 评论 -
什么是文本挖掘以及应该如何学习?
文本挖掘是一种从大量文本数据中提取信息和知识的方法。它通常使用自然语言处理技术来识别文本中的模式和关系,并使用数据挖掘技术来发现隐含的规律。文本挖掘的应用领域广泛,包括情感分析、市场调研、客户服务、新闻摘要、舆情分析等。原创 2022-12-26 13:52:39 · 1176 阅读 · 0 评论 -
Python机器学习零基础理解回归模型的准确性指标和评估
使用准确度指标进行模型评估标准。RMSE 和 MAE 越小越好。R2R^2R2越接近 1 越好,但是如果数据集相同,R2相对于RMSE是单调递减的,所以没必要同时比较。如果数据很好模型,则 RMSE 与 MAE 的比率 RMSEMAE 接近π22π。通过用数据可视化直观地观察预测值的分布和异常值的有无,可以检查指标中没有出现的预测趋势。原创 2022-12-16 09:41:18 · 1087 阅读 · 0 评论 -
Python机器学习零基础理解分类模型的准确性指标和评估
就像学校的绩效考核、公司的人事考核一样,考核是生活在社会上的人永远遵循的东西。然而,再熟悉不过的评价,岂不是一件出乎意料的难事?是在一个重要的点上做得好更好,还是对平衡好、整体好的给予高评价更好?客观、一致的评价需要评价标准和评价指标。机器学习模型也是如此,在创建机器学习模型时,为了判断模型有多『好』,需要确定评价指标并做出判断。原创 2022-12-16 09:41:20 · 993 阅读 · 0 评论 -
基于Wav2Lip的AI主播
现在市面上的各种AI主播产品,基本都是基于现有的人物造型,其中包括3D动漫,真人,二次元等等,然后通过对口型的方式进行的,但是这个会有一个问题,对于这种AI主播有个名词叫虚拟数字人,虽然虚拟数字人没有肖像权的问题,但是存在软件著作权的问题,现在都是购买会员免费试用,但是也容易出现很多问题,不如用自己的形象做一个AI数字人模型更加稳妥。通过模型可以实现图片和视频自动对口型制作自己的AI主播,这个是我之前发布到朋友圈的一个样例。原创 2022-11-30 15:14:15 · 3339 阅读 · 12 评论 -
基于GPT2-Chinese文本自动生成
基于 GPT2-Chinese 模型的中文文本生成项目,可用于中文生成任务。当下市面上很多文本自动生成业务都是基于该模型二次开发的,可以很少有那种特定垂直领域的模型用于该领域的创作,也就导致大家在使用类似产品的时候会发现很多的问题,这种问题多数会导致写出来的文章前后逻辑不对,这个自己体会就知道了,真的能拿出来直接发么?答案肯定是不能。原创 2022-11-30 14:33:48 · 3034 阅读 · 3 评论 -
CPM文本自动生成
基于CPM模型的中文文本生成项目,可用于作文、小说、新闻、古诗等中文生成任务。虽然说开源的,但是实际部署应用的过程中很多小伙伴还遇见了不少的问题,这里我用自己的方式部署应用,如果还没有实现该功能的小伙伴可以跟我一起来操作。如果有不了解的小伙伴先来看一下实验结果。红色的部分是必备参数即文章的标题和文章的开头,然后生成的2个实例。模型用的是开源预训练的模型,所以并没有那么强的垂直型,娱乐一下还是可以的,如果商用的话还是要自己抓取数据进行训练。原创 2022-11-29 17:08:48 · 2460 阅读 · 0 评论 -
使用LSTM模型进行产品销售额的预测产品订单效益最大化
销售的中心任务之一就是销售预测,无论企业什么性质、企业规模大小、销售人员的多少,销售预测影响到包括计划、预算和销售额确定在内的销售管理的各方面工作。销售预测是指对未来特定时间内,全部产品或特定产品的销售数量与销售金额的估计。商家总是会想尽办法想预测出自己商品未来的销售情况,以便能够提前做出合理的备货策略,在保障销售最大化的同时也能将剩货风险降到最低。当然,商品销售预测能力也是各个销售企业必备的一项数据分析基础技能。准确利用技术实现销售预测,往往能给商品销售带来事半功倍的效果。原创 2022-09-24 10:04:24 · 4942 阅读 · 0 评论 -
使用机器学习预测客户的下一个购买日是哪一天
在数据驱动增长系列中解释的大多数行为背后都有相同的心态使用给定的数据集,构建了一个机器学习模型用于预测零售店的在线客户是否会在他们最后一次购买之日起 n 天内进行下一次购买到底是哪一天?给与各种刺激消费的手段。原创 2022-09-23 16:20:24 · 6737 阅读 · 0 评论 -
使用多种机器学习进行客户预流失与否预警的方法
在过去我们常常讲一个企业如何去获客,但我们说的的获客、拉新或者市场营销,它的关注点是比较偏向于新用户,希望有源源不断地新用户进来,但用户增长归根结底需要把关注点拓宽到用户的整个生命周期中,很重要的一环就是如何防止用户流失,当用户流失之后怎么把他拉回来。因此,用户流失预防运营在用户运营工作中有着极其重要的作用。这次和大家分享从数据层面讲用户流失的运营思路和方法,和用户不能轻易说再见!用 kaggle 上一个比较经典的电信用户流失的数据来学习一下如何预测给时期内可能流失的用户。基本信息和描述数据预处理原创 2022-09-23 10:32:19 · 6505 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(3)生成随机数据验证
继上一篇,基于训练好的模型需要对训练的模型进行验证,并提交训练结果。由于资源有限仅仅跑了一次模型得到一个结果能把整个流程实现下来,有机器资源的小伙伴可以自行尝试更高的参数用于计算。原创 2022-09-12 18:16:40 · 6582 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(2)模型训练和验证
继上一篇,这次介绍第二部分模型训练和评估。主要应用的原理是图像嵌入和嵌入模型。为了比较图像可以使用模型生成嵌入作为它们的表示,然后计算图像之间的距离/相似度以搜索最相似的图像。可以使用没有最后一个分类层的预训练模型并添加两个线性层。自预训练 RESNET 的特征将用作嵌入层的输入,嵌入层的结果将用于分类层。原创 2022-09-12 17:58:28 · 7049 阅读 · 0 评论 -
Hotel-ID打击人口贩卖(1)项目介绍和数据预处理
据报道,每年有20000妇女被拐卖。其中有一大部分进行罪犯在酒店房间内给人口贩运的受害者拍照,如下例所示。在警方调查的过程中识别这些酒店对于破案至关重要,但由于像素导致图像质量不高,以及摄像机角度问题,通常会给警方带来不小的挑战。打击人口贩运的酒店识别竞赛是计算机视觉和模式识别会议CVPR 2022上FGVC9(细粒度视觉分类)研讨会的一部分。但即使图像中没有受害者,酒店识别通常也是一项具有挑战性的细粒度视觉识别任务,但是通过 ResNet 网络能够很好的解决棘手的问题。原创 2022-09-12 17:17:58 · 6989 阅读 · 0 评论 -
Tensorflow-gpu1.x和gpu2.x版本共存之法
Windows10系统下让和版本共存,且可以满足日常工作。要把需要用到的软件下载好,尤其要注意并不是最新版就是最好的,而是需要挑选相对稳定的,相互冲突少的。这里推荐的2个共存版本分别是(虚拟环境)和(开发环境)。可以看下我的工程目录。以我笔记本显卡举例,如果你的显卡不是这个版本的查看我的另外一篇文章,查询你显卡的对应版本。原创 2021-05-21 22:35:10 · 42955 阅读 · 0 评论 -
Win10+Python3.8+GPU版tensorflow2.x环境搭建最简流程
由于新换了台笔记本GPU不支持原来的版本了,不得不更换版本,稳重记录全部配置流程。原创 2021-04-08 09:48:43 · 38850 阅读 · 2 评论 -
Win10+Python3.9+GPU版pytorch环境搭建最简流程
为了参加一些建模比赛需要在新买的笔记本中安装深度学习GPU环境,之前配置了 tensorflow2.0 的 GPU 环境。还需要对计算的速度进行比较因此也要安装一个 pytorch 的 GPU 环境,前期安装的方法和 tensorflow 基本相同,不过后面安装就比较麻烦了,先来看看安装完成后的结果。已经帮众人踩过坑,一定记得中间步骤缺少一个都不可能成功。需要的非Python必备程序,缺一不可。记住文件名称大致规则和文件大小。具体每个文件怎么下载和使用往下看。原创 2022-09-10 19:55:32 · 7195 阅读 · 0 评论 -
入行数据分析要知道什么是机器学习优化思想
近年来备受关注的机器学习有很大不同。机器学习是一种主要用于计算未来预测的方法,而数学优化则使用这些预测来执行模拟和自动化决策。粗略地讲机器学习计算明天下雨的概率,数学优化决定是否带雨伞。如果只是说明天,有 60% 的几率会下雨,仍然需要决定之后要做什么。例如在计算当天的满意度之后,决定你应该开车去。因此数学优化是加速机器学习项目和业务决策的非常强大的工具。原创 2022-09-05 18:44:21 · 6632 阅读 · 0 评论 -
入行数据分析要知道数据挖掘到底是做什么的
数据挖掘是一种技术,例如可以基于对每个客户的深刻理解,在公司与客户之间形成长期良好关系的方法和策略。更具体地说可以说是分析公司收集的大量数据,发现有用的模式和规则,并支持营销活动的统计方法和工具的集合。其中最经典的案例是啤酒与尿布的故事,通过关联规则销售。大多数人会认为这只是一个轶事,没有确凿的证据表明将两者放在同一楼层实际上会增加销售额。甚至有人会认为消费周期决定的,或者是一个偶然现象。原创 2022-09-05 13:12:43 · 6702 阅读 · 0 评论 -
入行数据分析要知道的多元分析和实际应用的常用分析方法
企业在研发、生产过程、市场研究、销售预测等各个方面都遇到了复杂的现象,并试图通过多元分析来解决这些问题。经常会使用CRM系统来解决业务中发现的问题,但基于消费者购买数据和其他行为数据和产品数据,预测客户将购买什么,并提供最优的产品和信息。多元分析是支持分析能力的重要工具和武器,解决的是多变量分析在将数据放入软件时总是会产生某种结果,因此也有可能得出错误的结论。此外也存在用常规方法无法很好地分析大数据的情况,以及仅靠现有软件和理论无法解决的问题。多变量分析是一种统计方法,是根据分析师的假设阐明大量信息(有关变原创 2022-09-04 19:08:50 · 6733 阅读 · 0 评论 -
入行数据分析要知道什么是正态分布和其他变量分布
正态分布是对称的,中间的平均值最高,两边的平均值更低。那么等腰三角形也是正态分布吗?对正态分布形状的更准确描述是 一条形如钟形或山形的曲线。用数学公式来表示正态分布的形状,可以很容易推导出正确的曲线。如果利用一个水箱来如何显示正态分布呢?从水龙头出来的水总是被中间的分离器分成两半,一个接一个地分成两半。进入第一个圆筒的水在下降一个台阶时被分离器分成两份,所以通过第二个圆筒的水量左右两边是一样的。同样第三个缸也有一半的水,但中间缸将从两个缸接收水,因此与两端缸相比,通过的水量是其两倍。...原创 2022-09-01 14:50:36 · 6395 阅读 · 0 评论 -
入行数据分析要知道什么是单变量分析和基础统计
例如某人的考试成绩单数据。此外一个科目的成绩和平均分的时间序列数据也是单变量的,因为只有一个数据。后者还有另一个指标叫做时间,所以它可能是一个双变量,如果时间的进展被认为是恒定的(有固定的间隔),可以被认为是一个单变量。例如当获得某个科目的考试成绩等数据时,计算该班级的平均分是很常见的。如果知道自己的得分是高于还是低于平均分,则可以查看自己的排名情况。甚至可以找出最高分是多少,谁的得分最低。如果想更详细地了解自己的位置,也会想出偏差值的概念。为了得到偏差值,需要知道每个人的分数分布有多少(什么样的分布)。.原创 2022-09-01 13:47:36 · 6400 阅读 · 0 评论 -
入行数据分析要知道什么是数据&数据分析
假设一家制造商开发了一款新产品。为了确认与现有产品的差异,抽取了 100 名产品使用者的人进行测试。现有产品和新产品测试结果。从这张表看 55%的患者评价现有产品为好,而新产品为 58%,增加了3个百分点。会不会觉得新产品开发成功了?这里不讨论这 3个百分点是否有显着差异,但如果产品规划师、开发人员或研究人员应该多分解一点,按性别看或者做更详细的分析。显示了男性和女性之间的差异。从这张表看新产品似乎对男性有效,但现有产品似乎对女性更好。如果继续按原样销售该产品,我们就会发布一款对女性不太有效的产品。原创 2022-08-24 14:57:24 · 6761 阅读 · 0 评论 -
入行数据分析要知道什么是统计
日常生活中我们被无穷无尽的数据所包围,数据是『为了某种目的而获得的数字和代码的集合』,即使模糊地看待它们,也无法从中得到任何东西。通过统计数据的个数、求平均值、看趋势、分类,可以第一时间了解数据的性质和意义,并加以利用。一定数量的数据总是伴随着变化(不确定性)。例如一所学校的每个人都有相同的考试成绩,那么给出平均分数、排名或偏差就没有意义了。如果天气和温度一年四季都保持不变,那么就不需要天气预报,也不需要绘制温度图表。然而实际上,分数因年级和班级而异,天气和温度也因地区和一天中的时间而异。.........原创 2022-08-18 17:35:16 · 6712 阅读 · 0 评论 -
Python机器学习零基础理解时间序列ARIMA
自回归,时间序列是根据其自身的滞后值回归的,使用一个观测值和一些滞后观测值之间的依赖关系。:融合。使用原始观测值的差分(例如从前一个时间步的观测值中减去观测值)以使时间序列平稳。表明数据值已被替换为它们的值与先前值之间的差异,以便将序列转换为平稳序列。:移动平均线。使用观测值与应用于滞后观测值的移动平均模型的残差之间的依赖关系。表明 回归误差 实际上是 误差项的线性组合 ,其值同时发生在过去的不同时间。当有季节性或时间性数据时,可以应用 ARIMA 模型,并且需要向模型添加更多参数。......原创 2020-08-24 22:48:04 · 29948 阅读 · 0 评论 -
Python数据处理Tips机器学习中文数据8种常用处理方法
将日常工作中如何进行处理中文文本数据的常规方法。其中包括格式处理、编码转换、文档分割、错误修正等内容。原创 2021-07-04 19:12:08 · 34478 阅读 · 0 评论 -
Python数据处理Tips机器学习英文数据集8种算法应用
在日常的数据分析工作中,不管在处理中文和英文或者其他语言,总体来说套路是一样的,只是有一些简单的变化转换,本文以英文举例,其中包括文本数据预处理准备、词频与停用词、词袋模型、N-Grams模型、TF-IDF 模型、相似性特征、聚类特征、LDA 主题模型、词嵌入模型 word2vec等内容。......原创 2021-06-20 08:24:31 · 35924 阅读 · 0 评论 -
Python数据处理Tips使用OpenCV预处理图像数据的10种操作
预处理图像数据常规的基本操作有:访问图像属性、修改像素值、设置图像的区域,分割和合并、改变颜色空间、几何变换、图像阈值化、平滑图像、形态转换、图像渐变、特征检测:边缘、轮廓、线条、面等、直方图、图像变换、图像分割、图像内画。不过当下流行比较多的是使用来处理各种图片,可以实现上面的全部功能。......原创 2021-06-19 21:21:36 · 35534 阅读 · 0 评论 -
Python数据处理Tips数据连续变量常用10种处理方法
在日常的数据分析工作中,经常需要把数据变量转换成模型需要的样子,比如我们经常遇见的数据都是标签化、文字化等内容,需要将这些数据转换成计算机看得懂的内容,就是需要进行标签变量的转换。不管是离散数据还是连续数据,在某些特定的环境下可能都需要进行类别的转换处理。......原创 2021-06-19 18:25:04 · 35551 阅读 · 0 评论 -
Python数据处理Tips数据离散变量常用5种处理方法
在日常的数据分析工作中,经常需要把数据变量转换成模型需要的样子,比如我们经常遇见的数据都是标签化、文字化等内容,需要将这些数据转换成计算机看得懂的内容,就是需要进行标签变量的转换。不管是离散数据还是连续数据,在某些特定的环境下可能都需要进行类别的转换处理。将离散数据和连续数据转换为标志变量。离散数据: 分类数据是指非数字数据,其数据属性只能归于特定类别。例如,性别上的男性和女性是分类数据。分类数据中的值没有明显的高,低,大,小和逻辑划分,例如等级,顺序,排序,好坏等,但用于区分具有相同或相同属性的两个或多个原创 2021-07-04 16:41:29 · 34657 阅读 · 0 评论 -
Python数据处理Tips数据样本不均衡解决方法
解决样本类别分布不均的问题指不同类别的样本量有很大差异。样本类别的不平衡分布主要出现在与分类有关的建模问题中。例如在制造业领域,当检测设备异常时,通常会有一个数据集,其中大部分数据是正常的,只有少量数据是异常的。...原创 2020-08-24 22:47:39 · 33974 阅读 · 0 评论