python
weixin_41734687
这个作者很懒,什么都没留下…
展开
-
机器学习 part3
机器学习 part3机器学习与运用第三天 机器学习与运用回归算法 线性回归分类算法 逻辑回归聚类算法 kmeans一 回归算法 线性回归1.1 回归举例什么是回归期末考试成绩判定期末成绩:0.7×考试成绩+0.3×平时成绩西瓜好坏判断西瓜好坏:0.2×色泽+0.5×根蒂+0.3×敲声1.2 线性模型试图学得一个通过属性的线性组合来进行预测的函数:f(x)=w_1x_1+w_2x_2+…+w_d*x_d+bw为权重,b称为偏置项,可以理解为:w_0×11.3 线性回归原创 2020-05-10 21:52:29 · 148 阅读 · 0 评论 -
scikit-learn朴素贝叶斯GaussianNB实例
scikit-learn朴素贝叶斯GaussianNB实例1、什么是朴素贝叶斯在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的...转载 2020-04-24 11:39:48 · 1215 阅读 · 0 评论 -
机器学习与应用 part 2
机器学习与应用第二天 机器学习与应用1.sklearn数据集与估计器2.分类算法k近邻算法一 sklearn 数据集与估计器1.1 sklearn 数据集数据集划分sklearn数据集接口介绍sklearn分类数据集sklearn回归数据集1.1.1 数据集的划分数据集划分思考:如果数据集全部用于训练模型,有什么问题?只训练了模型,没有数据集对模型进行验证,没有模...原创 2020-04-13 08:16:21 · 293 阅读 · 0 评论 -
用户画像-ID_MAPPING 利用并查集——求无向图的所有连通子图来实现所有用户合并
一 项目背景本项目是基于https://blog.csdn.net/weixin_41734687/article/details/99174064 此项目的改进。去年利用jacaard相似度对多用户进行了合并。由于受到计算资源的制约,在对多用户进行合并时,只选取了有限量元素进行合并,导致一些用户没有合并为一个用户,在实际数据运用中,会出现部分数据one_id会发生变化,对用户画像分析造成了困...原创 2020-03-25 00:10:04 · 1051 阅读 · 0 评论 -
多用户合并 利用 并查集——求无向图的所有连通子图
并查集——求无向图的所有连通子图求解无向图的连通子图,有两种方法,一种是DFS或BFS,也就是对图遍历,另一种方法就是使用并查集。对图的遍历非常常见,而并查集的概念就不如遍历那么熟悉。其实如果仅是找连通子图,用DFS对所有节点遍历一遍就可以,而用并查集则需要遍历两遍。我们不考虑算法效率问题,仅仅是通过这个问题让我们对并查集有所认识,并了解其原理,下面主要说一下并查集。 首先说一下,并查集是一...转载 2020-03-24 13:49:11 · 617 阅读 · 0 评论 -
机器学习 python
**机器学习**机器学习发展背景1.机器学习奠基人“人工智能之父” 艾伦.图灵马文·李·闵斯基(英语:Marvin Lee Minsky,1927年8月9日-2016年1月24日),科学家,专长于认知科学与人工智能领域,麻省理工学院人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。2.机器学习发展机器学习包含人工智能,...原创 2020-03-19 00:09:53 · 330 阅读 · 0 评论 -
用户画像-ID_MAPPING pyspark实战
一、背景简介用户性别预测是我进入机器学习领域的HelloWorld级工程实践,也是第一个从业务需求分析、数据源调研、数据整理和特征工程到建模、模型评估、系统部署这一完整流程都由自己独立设计实现的工程。非常有幸能接触到这个难度不是很大,但是却很好将我带入机器学习的世界的工程。前后大约花了4个月的时间做了三个版本,这是其中第二个版本,这个版本耗时大约1.5个月。一 项目背景公司大数据平台从无到有...原创 2019-08-11 12:08:07 · 4046 阅读 · 11 评论 -
机器学习-朴素贝叶斯文本分类Python实现
机器学习-朴素贝叶斯文本分类Python实现前面提到的K最近邻算法和决策树算法,数据实例最终被明确的划分到某个分类中,下面介绍朴素贝叶斯是一种运用概率给对象进行分类,而不是完全确定实例应该分到哪个类;K近邻算法和决策树,对象被明确划分到了某个类。优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:要求数据相互独立,往往数据并不是完全独立的适用数据类型:标称型数据。朴素贝叶斯的一般...原创 2019-07-19 08:12:56 · 1124 阅读 · 0 评论 -
python3.5 连接hive(hive有密码并且集群Kerberos认证) 基本使用 pyhive
1.安装相关依赖目前python3连接hive的方法主要是使用pyhive包,但是要安装pyhive也不是那么容易的事情,因为pyhive要使用系统底层模块,所以就要先安装对应的模块。sudo yum install cyrus-sasl-develsudo yum install gcc-c++pip3 install saslpip3 install thriftpip3 ins...原创 2018-11-10 22:59:34 · 5114 阅读 · 0 评论 -
Python 玩转大数据 Mapreduce开发 wordcount
一 介绍MapReduce 是一种分布式编程模型,用于处理大规模的数据。用户主要通过指定一个 map 函数和一个 reduce 函数来处理一个基于key/value pair的数据集合,输出中间的基于key/value pair的数据集合;然后 再创建一个Reduce函数用来合并所有的具有相同中间key值的中间value值。使用python写MapReduce的“诀窍”是利用Hadoop流的A...原创 2018-10-27 10:55:39 · 628 阅读 · 0 评论 -
Python Hadoop Mapreduce 实现Hadoop Streaming分组和二次排序
需求:公司给到一份全国各门店销售数据,要求:1.按门店市场分类,将同一市场的门店放到一起;2.将各家门店按销售额从大到小,再按利润从大到小排列一 需求一:按市场对门店进行分组分组(partition)Hadoop streaming框架默认情况下会以’/t’作为分隔符,将每行第一个’/t’之前的部分作为key,其余内容作为value,如果没有’/t’分隔符,则整行作为key;这个key/v...原创 2018-10-28 21:16:57 · 1226 阅读 · 0 评论 -
python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4
python操作hdfs基础及简单案例 python3.5 pyhdfs hadoop2.6.4官方文档参考文档在mac_pro上运行,自己搭建的hadoop集群,测试之前先要将集群/etc/hosts文件中域名映射ip关系,追加到mac /etc/hosts中在mac_pro终端vi /etc/hosts # 把以下内容追加到/etc/hosts192.168.146.135 s...原创 2018-10-20 22:09:26 · 1376 阅读 · 0 评论 -
python pandas 将excell转为csv 处理数据日期 替换数据内换行换行 代码亲测可用
pandas 将excell转为csv,并且替换掉excell里面的换行符,处理完日期业务需求:公司从外部获取了一份excell文件,需要把文件放到hive里面,excell里面有不符合要求的日期格式,并且字段里面包含换行符,hive识别后,会造成字段串位,所以需要把excell的日期和换行符处理完成之后,转成csv,然后推到集群将excell转成csv def exce...原创 2018-09-05 23:41:39 · 2689 阅读 · 0 评论 -
Python SMTP发送邮件 python2,python3通用
Python SMTP发送邮件 python2,python3通用业务需求:集群每天会生成一些统计的excell报表,需要将这些excell报表定时发送到相关邮箱。主要分为三步** 实例化邮件传输实例,和邮件服务器建立连接(打开邮箱)smtpObj = smtplib.SMTP()smtpObj.connect('smtp.163.com',25)# 需要SSL认证# s...原创 2018-08-25 15:28:12 · 841 阅读 · 0 评论