数据分析
weixin_41734687
这个作者很懒,什么都没留下…
展开
-
机器学习 part3
机器学习 part3机器学习与运用第三天 机器学习与运用回归算法 线性回归分类算法 逻辑回归聚类算法 kmeans一 回归算法 线性回归1.1 回归举例什么是回归期末考试成绩判定期末成绩:0.7×考试成绩+0.3×平时成绩西瓜好坏判断西瓜好坏:0.2×色泽+0.5×根蒂+0.3×敲声1.2 线性模型试图学得一个通过属性的线性组合来进行预测的函数:f(x)=w_1x_1+w_2x_2+…+w_d*x_d+bw为权重,b称为偏置项,可以理解为:w_0×11.3 线性回归原创 2020-05-10 21:52:29 · 161 阅读 · 0 评论 -
scikit-learn朴素贝叶斯GaussianNB实例
scikit-learn朴素贝叶斯GaussianNB实例1、什么是朴素贝叶斯在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的...转载 2020-04-24 11:39:48 · 1237 阅读 · 0 评论 -
机器学习与应用 part 2
机器学习与应用第二天 机器学习与应用1.sklearn数据集与估计器2.分类算法k近邻算法一 sklearn 数据集与估计器1.1 sklearn 数据集数据集划分sklearn数据集接口介绍sklearn分类数据集sklearn回归数据集1.1.1 数据集的划分数据集划分思考:如果数据集全部用于训练模型,有什么问题?只训练了模型,没有数据集对模型进行验证,没有模...原创 2020-04-13 08:16:21 · 306 阅读 · 0 评论 -
用户画像-ID_MAPPING 利用并查集——求无向图的所有连通子图来实现所有用户合并
一 项目背景本项目是基于https://blog.csdn.net/weixin_41734687/article/details/99174064 此项目的改进。去年利用jacaard相似度对多用户进行了合并。由于受到计算资源的制约,在对多用户进行合并时,只选取了有限量元素进行合并,导致一些用户没有合并为一个用户,在实际数据运用中,会出现部分数据one_id会发生变化,对用户画像分析造成了困...原创 2020-03-25 00:10:04 · 1064 阅读 · 0 评论 -
多用户合并 利用 并查集——求无向图的所有连通子图
并查集——求无向图的所有连通子图求解无向图的连通子图,有两种方法,一种是DFS或BFS,也就是对图遍历,另一种方法就是使用并查集。对图的遍历非常常见,而并查集的概念就不如遍历那么熟悉。其实如果仅是找连通子图,用DFS对所有节点遍历一遍就可以,而用并查集则需要遍历两遍。我们不考虑算法效率问题,仅仅是通过这个问题让我们对并查集有所认识,并了解其原理,下面主要说一下并查集。 首先说一下,并查集是一...转载 2020-03-24 13:49:11 · 650 阅读 · 0 评论 -
机器学习 python
**机器学习**机器学习发展背景1.机器学习奠基人“人工智能之父” 艾伦.图灵马文·李·闵斯基(英语:Marvin Lee Minsky,1927年8月9日-2016年1月24日),科学家,专长于认知科学与人工智能领域,麻省理工学院人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。2.机器学习发展机器学习包含人工智能,...原创 2020-03-19 00:09:53 · 349 阅读 · 0 评论 -
tableau 制作疫情可视化报表(impala 连接)
tableau 制作疫情可视化报表1.tableau 通过impala连接hadoop1.1 mac下载tableau,impala驱动(https://www.cloudera.com/downloads/connectors/impala/odbc/2-6-5.html),下载安装完成后直接按上图连接即可。1.2 选择要操作的数据库...原创 2020-02-29 23:28:51 · 1633 阅读 · 1 评论 -
hive 存储格式对比
hive 存储格式对比Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|SequenceFile|AVRO|ORC|Parquet)来指定存储格式。...转载 2020-01-07 15:38:42 · 156 阅读 · 0 评论 -
机器学习-朴素贝叶斯文本分类Python实现
机器学习-朴素贝叶斯文本分类Python实现前面提到的K最近邻算法和决策树算法,数据实例最终被明确的划分到某个分类中,下面介绍朴素贝叶斯是一种运用概率给对象进行分类,而不是完全确定实例应该分到哪个类;K近邻算法和决策树,对象被明确划分到了某个类。优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:要求数据相互独立,往往数据并不是完全独立的适用数据类型:标称型数据。朴素贝叶斯的一般...原创 2019-07-19 08:12:56 · 1133 阅读 · 0 评论 -
店铺销售异常监测和薅羊毛用户识别
店铺销售异常监测和薅羊毛用户识别一 店铺销售异常监测公司财务反应全国个别店铺短时间核销了大量优惠券三个维度进行监控识别销售收入和物料成本(物料成本上传数据有延迟)进行对比,物料成本占比大于40%,异常销售收入和优惠券核销数量对比一个用户短时间内订单数量异常或者一天该用户订单数达到10以上1.1 销售收入和物料成本异常计算店铺销售额(数据样例稍后提供)和成本(不提供数据样例,查询...原创 2019-05-22 23:31:22 · 1760 阅读 · 0 评论