自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 2023/12 拜个师傅带你学算法写论文

本人是985大学计算机硕士毕业,已经工作了8年。在国内大厂工作,目前仍奋战在机器学习深度学习一线。计算机视觉、自然语言处理、推荐系统、大模型等也有相对应的开发老师。已经辅导过近4000+个国内外本科、硕士、博士同学以及高校老师学生等,对其毕业、实习、升职、转行、科研算法论文创新产生过很多帮助。

2023-12-19 13:11:44 1426

原创 pip list 报错 ImportError: cannot import name ‘main‘ from ‘pip._int

最近在操作服务器的时候,发现pip list这个命令不好使了,报错如下。执行 pip --version 查看pip是否安装完成。此步骤执行的时候可能会报出权限错误, 此时应执行。最差的估摸就是重装anaconda。估摸的原因是pip文件损坏。

2024-02-05 18:38:17 339

原创 数据分析-29-260万用户大型家电和电子产品购买分析(包含数据代码)

字段名字字段含义event_time该文件包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据order_id订单编号product_id产品编号产品的类别ID产品的类别分类法(代码名称)brand品牌名称price产品价格user_id用户IDplt.show()

2024-02-05 16:58:36 551

原创 数据分析-28-小红书消费情况分析(包含代码和数据)

小红书是一个的生活方式平台和消费决策入口。与其他店商品台不同,在小红书可以购买商品,也可以分享各种攻略和日常。数据来源及说明分析思路数据清洗数据分析结论。

2024-01-30 18:12:49 926

原创 安装mmcv-full(包括安装torch以及mmcv的离线安装方式)

在安装torch的时候,可以根据自身电脑是否有显卡,可以选择安装CPU版本还是GPU版本。mmcv-full也是同理。在安装mmcv-full中通常需要安装torch+mmcv-full。安装torch和torchvision时,两个包都有版本对应关系。以上表格表明存在该版本mmcv-full包。在选择下载的时候,可根据自己的需要来选择。不管是cpu的还是gpu的都在。

2024-01-30 11:30:27 4569

原创 数据分析-27-携程用户预定房型预测(包含数据代码)

数据集为携程用户预定携程房型的数据集,已脱敏,包含以下几个部分:用户数据、酒店数据、房型数据。大家可以根据在用户的历史信息,挖掘出用户对于某些房型偏好,预测哪一个售卖房型(roomid)是用户最终预订的。先对测试数据集的基本字段做一个简单的分析。¶房型预测模型读取数据plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体。

2024-01-29 20:07:31 776

原创 Python如何安装GDAL包

Geospatial Data Abstraction Library (GDAL)是使用C/C++语言编写的用于读写空间数据的一套跨平台开源库。现有的大部分GIS或者遥感平台,不论是商业软件ArcGIS,ENVI还是开源软件GRASS,QGIS,都使用了GDAL作为底层构建库。以下内容主要介绍如何在Python环境里安装GDAL包。

2024-01-29 15:34:56 2103

原创 AttributeError: ‘DataFrame‘ object has no attribute ‘ix‘

属性在最新的pandas版本中已经升级修改。

2024-01-18 17:03:53 356

原创 数据分析-26-120年奥运会数据分析(包含代码数据)

本项目是对120年来的奥运会数据集(夏季奥运会)的简单分析。:国家奥委会3个字母的代码与对应国家信息。:参赛运动员基本生物数据和奖牌结果。奥运会里的男性与女性运动员。奥运会历年来的Top。

2024-01-18 16:57:50 1005

原创 数据分析-25-电商用户行为可视化分析

电商平台在所有媒体类型中,具有足够的特殊性,是兼具媒体场景和消费场景两大属性的平台,符合品效合一,也因此衍生出了贴合电商“搜索-购买-评价”链条的多种营销模式。随着电商营销产业链上消费行为数据的积累,海量数据中蕴含着无尽的价值,显现了用户不同的购物方式及爱好,基于此背景,本文利用阿里天池中淘宝电商用户数据进行分析。数据集的每一行表示一条用户行为,由用户标识、商品标识、行为类型、用户位置的空间标识、商品分类标识和行为时间组成字段名称字段描述user_id用户标识,抽样&字段脱敏item_id。

2024-01-05 19:00:00 918

原创 数据分析-24-母婴产品电商可视化分析(包含代码数据)

今年来母婴的消费逐渐增加,这是一份关于淘宝天猫的一份母婴的销售数据。分析该数据集有利于了解目前市场的销售情况,便于做出运营决策,提高销售额。tianchi_mum_baby_trade_history.csv - 交易记录表tianchi_mum_baby.csv - 婴儿信息表真实数据集的数据量非常大,仅婴儿信息就有900多万,天池数据集只给出了一些样本数据。表:包含29972行,7列。总体销售情况:总体销售量逐年增长但每月销售量的波动大。受到春节的影响,每年年1、2月份的销量下降。

2024-01-04 17:17:34 1048

原创 ModuleNotFoundError: No module named ‘numpy.testing.decorators‘

新版本已经去掉了这个方法。

2024-01-04 15:06:40 408

原创 Ubuntu安装TensorRT

在在解压后TensorRT的文件夹里有个uff文件和graphsurgeon文件夹,进入后。在解压后TensorRT的文件夹里有个python文件,进入后。要注意,TRT和CUDA和CUDNN是有版本对应关系的。将解压后的文件复制到CUDA的对应目录下。终端输入:nvcc -V。

2023-12-29 18:32:54 1030

原创 数据分析-23--糖尿病预测(线性回归模型)(包含数据代码)

本次实验的主要内容是使用回归分析和聚类分析来预测某人患糖尿病的可能性和身体的糖尿病指数。本次数据分析实战,对糖尿病数据集进行回归分析。sklearn.datasets 包提供了一些小的数据集,可用于机器学习入门,见下图。导入toy数据的方法介绍任务数据规模加载和返回一个boston房屋价格的数据集回归506*13加载和返回一个鸢尾花数据集分类150*4加载和返回一个糖尿病数据集回归442*10加载和返回一个手写字数据集分类1797*64加载和返回一个健身数据集多分类。

2023-12-28 19:00:00 1325

原创 数据分析-22-双12活动前后(包含数据代码)

凌晨时段购买率均远超日常,结合上图(日常和双12日均各时段pv趋势对比),凌晨PV流量是日常的两倍左右,说明活动期间凌晨时段有营销空间,建议商家在合规的情况下为凌晨购买的活跃消费者延长活动时间,促成更多的交易。商品子集都是偏服务类的商品,涵盖阿里巴巴集团十个主要的商品大类,例如汽车售后服务、摄影服务、餐饮、电影等,其特色是线上购买、线下服务。双12期间购买率高峰在0时,日常购买率高峰在10时以后,凌晨最低。12日,pv增量22078,uv增量1542,pv是uv的143倍。用户行为偏好(时间维度)

2023-12-28 16:30:00 1063

原创 AttributeError: ‘Series‘ object has no attribute ‘reshape‘

用values方法将Series对象转化成numpy的ndarray,再用ndarray的reshape方法。在调用pandas时,pandas的Series没有reshape而报错。

2023-12-28 14:21:21 373

原创 Pycharm配置ssh远程服务器解析器

之前在开发中,Pycharm都是通过本机Python环境来解析。但有时候,可能受限于本机电脑配置原因,导致运行速度并不快。(Pycharm需要是专业版,大家可以根据文章下方链接安装破解专业版QAQ)运行文件,这时候就会显示是通过服务器的虚拟环境来执行的代码。选择anaconda的解析器(选择base解析器)选择anaconda的解析器(选择虚拟环境解析器)如果想要切换回来本机的anaconda的话。坐等进度条走完,这里会有文件上传的过程。切换好解析器和目录后点击确认。选择对应的解析器和上传目录。

2023-12-28 11:00:00 496

原创 数据分析-21-黑色星期五消费者用户画像(包含数据代码)

消费者绝对大多数分布是在C类城市的男性,已婚和未婚在消费者中比较均匀的分布,都在50%左右。消费者主要分布在18-45岁之间,且26-35岁之间最多。从职业分布上来看看,单个岗位下单人数排名的前五分别是:程序员、医生、项目管理、警察、农业从业者。绝大多数的消费者的平均消费处于8400-10800美元之间,且不同年龄段消费金额的集中程度差异不大。关注公众号:『AI学习星球黑色星期五消费者用户画像即可获取数据下载。算法学习4对1辅导论文辅导或核心期刊可以通过公众号codebiubiu滴滴我。

2023-12-27 13:57:29 783

原创 ImportError: Nomodule named ‘_pywrap_tensorflow_internal‘

在安装1.3的tfgpu的过程中,安装到CUDA和cudnn,这两个是对应的,在cmd中输入nvcc -V等命令都是可以调用的。一定要先确认自己要下载的tensorflow的版本,再下载CUDA和cuDNN。但是,在调用tf却报错,经检查后确定仍然是CUDA和cudnn的版本对应关系。这个情况比较特殊,是安装tf1.3的版本出现问题。属于比较老的版本的tf。其他可以兼容CUDA8的cudnn版本都不可以用。否则就是这种报错问题。可以通过下表查看(Win系统),也可以通过。

2023-12-27 10:30:00 949

原创 数据分析-20-宠物小精灵数据挖掘(包含数据代码)

单变量数据可视化变量间关系可视化。

2023-12-26 16:30:00 1366

原创 UnicodeDecodeError : ‘gbk‘ codec can‘t decode byte 0*80 in position 6:illegal multibyte sequence

在尝试通过requirement.txt文件配置虚拟环境的包时候报错了。备注:如果这两个方案还是都不可以的话,那就手动一个一个包用命令安装下。因为代码中默认使用GBK,但是需要修改为UTF-8。首先提示信息是gbk,那么大概就是编码格式问题。

2023-12-26 10:41:49 415

原创 数据挖掘-11-利用python进行信用卡欺诈检测(包含数据代码)

信用卡是传统金融行业的范畴,但同时信用卡支付仍为日常生活中常见的一种支付方式,是一种透支消费行为。当然,在交易中也会存在着这种欺诈(信用卡被盗刷)行为。加入可以利用机器学习完成对欺诈情况的预测,有助于信用卡发卡机构实现反欺诈,保护持卡人的财产安全。信用卡欺诈是指故意使用伪造、作废的信用卡,冒用他人的信用卡骗取财物,或用本人信用卡进行恶意透支的行为。

2023-12-25 15:24:55 1826

原创 ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

这个包早就不在使用了,划分到了。

2023-12-25 14:32:59 322

原创 ImportError: cannot import name ‘Pie‘ from ‘pyecharts‘

因为pyecharts的版本。,导致之前的写法发生改变。

2023-12-25 10:00:00 485

原创 数据挖掘-10-酒店预订需求(包含数据和代码)

城市酒店的总预订量大,但同时预订取消率也不低,主要是因为城市酒店的主要用户群是商务差旅的用户,往往具有紧急性及未规划性,酒店的预订在未规划及深入了解酒店状态情况下,容易盲目预订、退订,所以退订率高,建议在在渠道平台增加“附近优选”功能,通过输入地址,自动筛选推荐附近城市酒店的入住率高、复住率高、评价高等高品质回馈的城市酒店,一方面能为用户提供更高效便捷的推荐服务,另一方面也促使平台渠道优化服务内容。如果酒店的预约被取消,则可能存在隐性的问题,这时需要我们提前对退订的订单做预测,提前发现存在的问题。

2023-12-24 14:21:12 1058

原创 SpecificationError: nested renamer is not supported

是Pandas版本问题,应该是之前的老写法,需要修改为最新的。另外还有一些其他的Demo可以做参考。

2023-12-24 10:00:00 319

原创 数据分析-19-Thera Bank信贷业务数据(包含数据代码)

本数据集来源于Kaggle上的银行Thera Bank,其是一家拥有不断增长的客户群的银行。这些客户中的大多数是具有不同存款规模的存款用户。为了增加贷款业务的客户量,提升公司的利润,他们随机选取了5000名顾客进行了一次贷款业务的营销宣传尝试,并获得了9%左右的转化率。向银行客户销售更多的个人贷款产品。设计营销活动,以更好的目标营销,以最低的预算提高成功率。识别购买贷款可能性较高的潜在客户。通过建立用户画像,确定目标销售人群,实现精准营销的目的。

2023-12-23 15:00:00 1055

原创 Mac安装Homebrew(支持Inter和M1/M2/M3)

首先我们可以这么理解,在Python学习中,是通过pip install 包名字来实现下载安装包的。因为pip是Python对于包进行管理的一个模块。而在Mac上,它也有对于软件管理的一个工具,就是HomeBrew。

2023-12-23 10:00:00 1211 1

原创 数据分析-18-Video Game Sales电子游戏销售分析(包含数据代码)

游戏的发展以及出现回落,具有竞争性和刺激性的游戏更加能够吸引玩家的喜欢,同时经济是否发达的地区与游戏的销量高低具有直接的关系,经济地区的销量更高。关注公众号:『AI学习星球电子游戏销售分析即可获取数据下载。算法学习4对1辅导论文辅导或核心期刊可以通过公众号codebiubiu滴滴我。

2023-12-22 14:42:43 542

原创 Mac / Win安装Graphviz

在开发工作中,为代码添加注释是为了保证代码可维护性的一个重要方面,但是仅提供注释也是不够的,如果系统越复杂功能越多,涉及的模块越多,仅凭借注释很难理解。这时候我们需要思维导图,类似于Xmind,但通过graphviz来实现的。解决方法:终端输入输入i进入输入模式,添加按esc键退出输入模式,输入:wq退出并保存最后输入使配置生效。(注意,空格和 : 这些都是要输入的)打开终端,重新输入命令这个问题是因为需要添加下国内镜像。

2023-12-22 14:00:00 1370

原创 数据挖掘-09-IBM员工流失率预测(包括数据和代码)

如所观察到的,我们的随机森林为其预测返回了大约88%的准确度,乍一看这似乎是一个表现相当不错的模型。然而,当我们考虑我们的目标变量偏差时,其中yes和no的分布分别为84%和26%,因此我们的模型仅比随机猜测稍微好一些。因此,顾名思义,用于最小化损失函数的算法是梯度下降方法,该方法添加决策树,其在指向减少我们的损失函数(向下梯度)的方向上“指向”。话虽如此,还有很大的改进空间。编码了我们的分类变量,并创建了一些新特征,我们现在可以继续将两个数据集合并成一个最终集中,我们将使用它来训练和测试我们的模型。

2023-12-21 19:45:00 1137

原创 TypeError: duplicate base class Sequence

感觉可能是包安装失败,建议是重新安装下这个包。包,再次运行这段代码,解决报错。因为我的报错信息具体到。包,所以进行重新安装。

2023-12-21 18:00:00 454

原创 M1安装tensorflow

M芯片是基于ARM芯片的,所以命令是通过安装下面的依赖包,再安装tensorflow。1.安装tensorflow的依赖包。命令和win是通用的,直接通过命令。

2023-12-20 18:08:15 402

原创 数据分析-17-IBM人员流失分析(包含代码数据)

随着经济全球化和技术革命的进一步拓展,市场竞争日益激烈。在这场争夺的背后,人才的竞争又是重中之重。人才相对于资本等其他资源的稀缺性将使高素质的人才在各个企业之间流动成为一种常态。而这就很容易造成公司的人员流失,那么造成这些人员流失的原因主要有哪些呢?我们怎么做可以减少人才流失呢?**结论:**根据我们前面的分析可以得出结论,影响离职的因素主要有出差多大学刚毕业没多久的年轻单身人士加班多底层、基层收入低部门男女比例失调销售部门。

2023-12-20 18:00:00 991

原创 数据分析-16-共享单车的数据分析(包含代码数据)

共享单车系统是一种租赁自行车的方法,注册会员、租车、还车都将通过城市中的站点网络自动完成。使用共享单车,可以注册会员,存入一定金额用于使用结束后自动扣费结算;也可以不注册会员,临时使用后通过其提供的支付方式结算费用。人们通过下载APP使用这个系统进行扫码开锁取车,然后从取车地骑到自己的目的地后停放锁车归还,系统自动按实际使用时长计费。共享单车由注册用户与非注册用户构成,而主要群体以注册用户为主。共享单车的用户总数主要受摄氏度、体感温度、湿度、时刻影响比较明显。根据数据分析提出几个建议。

2023-12-19 18:00:00 1524

原创 数据分析-15-Bitcoin Historical Data比特币价格预测(包含代码数据)

根据前六步得到的分析数据与模型结果,基于时间序列与四种因素对比特币价格进行预测,并与实际价格趋势曲线进行拟合对比。分析:由图可见,实际曲线与预测曲线拟合较好,说明模型的优越性,预测算法的准确性,有着较好的预测效果。将处理完的数据导入对应的模型中,使用自相关和部分自相关图对参数进行初始近似处理。由于连续的响应变量不满足正态分布,所以数据需要进行Box-Cox变换。对上述四种影响货币价格走向的四种因素分别进行稳定性与时间序列检测。通过对数据库中四种因素来分别分析其对货币价格变化的影响并绘图。

2023-12-18 18:00:00 569

原创 SQL NULL值的比较

当在表中对字段进行比较的时候,要先对字段是否为NULL先进行一次判断。比较的方法用NVL。的比较一致都是让人头疼的事,一不小心就被坑了。这句话咋一看没啥毛病,但是如果field1和field2中有个。所以,字段中一旦有NULL,就会出现各种神奇的结果。在判断字段是否为NULL中,不仅可以用刚说的。有类似与ISNULL()的函数,用。下面是几个会出现意想不到的结果。再配合之前的表格再查看结果。

2023-12-18 11:15:20 1070

原创 数据分析-14-基于Python的信用评分卡数据分析(包含代码数据)

give me some credit 数据集分为训练集和测试集,目的是开发一个申请的评分卡模型,对未来一段时间内借贷人出现违约的概率进行预测,对客户信用进行评估打分。基于聚类方法的异常值检测,通过把数据聚成类,将那些不属于任务一类的数据作为异常值。而数据清洗过程比较繁琐,一般占据了我们整个工作量的60%,所以,需要我们仔细认真的完成这一步骤。但本篇的重点为利用python对数据进行清洗及简单的分析,熟悉数据清洗的步骤和思路,数据建模部分放在机器学习中。接下来,针对提出的问题,即分析的目的来构建模型。

2023-12-17 19:14:03 1732

原创 ‘DataFrame‘ object has no attribute ‘reindex_axis‘

【代码】‘DataFrame‘ object has no attribute ‘reindex_axis‘

2023-12-17 18:47:48 402

原创 数据分析-13-The Movies Dataset电影数据集分析(包含代码数据)

通过对电影关键字的分析,电影中经常被提及的词语是女性(woman)、独立(independent),其次是谋杀(murder)、爱情(love)、警察(police)、暴力(violence),可见观众对女性和独立方面题材的电影最感兴趣,其次是是犯罪类和爱情类电影。电影公司制作一部新电影推向市场时,要想获得成功,通常要了解电影市场趋势,观众喜好的电影类型,电影的发行情况,改编电影和原创电影的收益情况,以及观众喜欢什么样的内容。通过上面的数据集信息可以知道:整个数据集缺失的数据比较少。

2023-12-16 19:00:00 1053

Python数据挖掘入门与实战的思维导图总结

## 内容概要: 第1章  开始数据挖掘之旅 第2章  用scikit-learn估计器分类  第3章  用决策树预测获胜球队  第4章  用亲和性分析方法推荐电影   第5章  用转换器抽取特征   第6章  使用朴素贝叶斯进行社会媒体挖掘  第7章  用图挖掘找到感兴趣的人   第8章  用神经网络破解验证码  第9章  作者归属问题  第10章  新闻语料分类 第11章  用深度学习方法为图像中的物体进行分类 第12章  大数据处理 ## 适合人群:具有Python编程基础的学生或者开发人员 ## 能学到内容 1. 什么是数据挖掘 2. 如何使用数据挖掘 3. 都有哪些内容学习和补充附录 建议学习中按照电子书来进行学习

2023-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除