![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 67
Enche
这个作者很懒,什么都没留下…
展开
-
机器学习--KNN算法带你光棍节脱单
KNN算法上一篇已经进行过介绍,现在主要进行实际操作,通过对实际数据进行分析,来对没有见过面的美女帅哥进行要不要进行约会作出判断。以下有一系列采集整理好的数据,第一列表示每年乘坐飞机飞行的里程数(高富帅,白富美比较偏向坐飞机,我们这种屌丝就坐坐火车啦),第二列表示每年吃冰淇淋的公升数,第三列表示玩游戏时间占的百分比(喜欢玩游戏的注意了哈,小心找不到白富美),第四列主要表示要不要约会的程度,数值原创 2017-11-10 11:16:17 · 480 阅读 · 0 评论 -
Spark踩坑记--Broadcast(广播变量) & Accumulator(累加器)
起因:在学习FP-Growth算法时,导入数据建立好Tree后,对输入项A查找其频繁项时,需要在driver端记录下输入项A的支持度计数总和,此时出现在executor端对driver端的变量的值进行更改后,driver端的变量值却没有改变,在好心人的帮助下,发现spark有Broadcast和Accumulator。错误案例:同一个变量打印出现不同结果var goodsFreq = 0Lval...原创 2018-03-06 21:40:15 · 739 阅读 · 0 评论 -
Spark--FPGrowth --记录
FPGrowth是一种数据频繁项挖掘算法,著名的应用有啤酒和尿布的例子。通过分析购物篮物品数据,挖掘出几种物品经常出现在一起的组合,在用户选取其中一个物品后,通过频繁项为其推荐其他有一定关联的物品,实现个性化服务。简单概念: 支持度:如上文中1000条购物篮数据中,含有尿布的有600条,则尿布的支持度为600/1000*100%=60% 置信度:如上文中同含有尿布的有600条,同时含有...原创 2018-03-07 11:10:47 · 519 阅读 · 0 评论 -
Spark RDD、DataSet、DataFrame--区别(个人理解)
描述:实验将系统数据分别转换成RDD,DataSet、DataFrame,然后进行比较,数据有四列,分别起名为a、b、c、d。class People(a:String, b:String, c:String, d:String)RDD:转换成RDD[People]后,发现每个记录为一个People对象,在进行map操作时候,若想对每个记录进行操作,必须通过map(p=>p.属性) 通过p....原创 2018-03-30 11:21:13 · 2444 阅读 · 0 评论 -
Tensorflow--入门记录
Tensor为张量,flow为流图。Tensorflow内含有很多写好的工具,如梯度下降算法,卷积操作等。在使用Tensorflow时,先导入包import Tensorflow as tf,在进行定义tensorflow变量时,使用tf.Variable(参数),有趣的是一个叫做占位符的工具,tf.placeholder(shape)申请一个占位符,这类似设置了一个shape已经知道的未知变量,...原创 2018-03-27 11:09:13 · 588 阅读 · 3 评论 -
Spark DataFrame读写数据库(Mysql)--记录
从数据库读数据,返回DataFrameimport org.apache.spark.sql.SparkSessionimport java.util.Propertiesobject RWJdbc { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().master("loca...原创 2018-04-15 09:52:35 · 2741 阅读 · 0 评论 -
Spark入门案例--出租车数据分析
通过分析出租车数据,然后使用KMeans对经纬度进行聚类,然后按照(类别,时间)进行分类,再统计每个类别每个时段的次数。数据地址 链接: https://pan.baidu.com/s/166dKRUpryHWZ2F8wLA3eyw 密码: g9dz数据格式以及意义:111,30.655325,104.072573,173749111,30.655346,104.072363,173828111,...原创 2018-04-03 17:13:50 · 9156 阅读 · 6 评论 -
TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型训练代码
数据地址:链接:https://pan.baidu.com/s/1z59_9dkzRckC2HAJyLMrWg 密码:6py0import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/train/train.csv"data = csv.reader(open(url))x_ = []y_ = []for i in ...原创 2018-05-06 08:56:59 · 1918 阅读 · 1 评论 -
Spark--SVM(支持向量机)--记录
SVM支持向量机:是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。支持向量机算法:训练集散落在空间中,寻找一个超平面将训练集进行分割成两方,且距离超平面最近的点到超平面的距离最短。设超平面W.X+b=0通过伸缩放大超平面 W.X+b=1,使最近的点到超平面的|W.X+b|=1点到超平面的距离为|W.X+b|/||W||,原创 2018-01-26 19:31:53 · 1335 阅读 · 1 评论 -
Spark--NaiveBayes(朴素贝叶斯分类)--记录
贝叶斯定理解决了在已知P(y),P(x),P(x|y)的情况下求P(y|x)贝叶斯定理:P(y|x) = P(x|y)*P(Y)/P(x)P(y|x) = P(x|y)*P(Y)/P(x)P(y|x) = P(x|y)*P(Y)/P(x)朴素贝叶斯分类:1.从待训练样本逐个求出P(x)、P(y)、P(x|y)对应的概率2.根据贝叶斯定理来对待预测样本进行预测P(y|x) = P(x|y)*P(Y)...原创 2018-01-15 15:43:36 · 407 阅读 · 0 评论 -
Spark--IsotonicRegression(保序回归算法)--记录
保序回归: 给定了一个无序的数字序列,通过修改每个元素的值,得到一个非递减的数字序列,要求是使得误差(预测值和实际值差的平方)最小。比如在动物身上实验某种药物,使用了不同的剂量,按理说剂量越大,有效的比例就应该越高,但是如果发现了剂量大反而有效率降低了,这个时候就只有把无序的两个元素合并了,重新计算有效率,直到计算出来的有效率不大于比下一个元素的有效率。PAVA法:循环遍历序列,若发现前者A大原创 2018-01-13 19:53:03 · 1996 阅读 · 0 评论 -
机器学习--物以类聚(k-means算法)
k-means算法是无监督学习算法,没有标签值,通过自身分析自身的数据,自己进行分类。此次实现参考了其他博客的实现。k-means中k的意思表示的是分类数目。数据集下载地址:链接:http://pan.baidu.com/s/1cfhvAY 密码:7nk8思想:1.将数据集中的每条数据视为空间中的一个点2.随机选取k条作为基准的数据3.遍历数据集,分别计算每条数据转化为原创 2017-11-17 21:45:09 · 676 阅读 · 0 评论 -
python+opencv 车牌识别实现
识别思路:1、通过摄像头采集图片2、对图片进行去噪、对比度加强处理等操作3、车牌位置的定位,采集到车牌信息4、对车牌字母进行分割5、通过卷积神经网络训练出来的模型,对采集车牌的各个字母进行识别6、对结果进行组合,最后得到车牌信息环境搭建:python2.7opencv3.3原创 2017-12-01 15:34:44 · 16052 阅读 · 3 评论 -
Spark入门-scala实现二次或多次排序问题
例如有个数据表结构 如:年龄 年级 姓名...希望首先根据年龄大小进行排序,如果年龄大小相同的情况下,再考虑年级大小的情况二次排序或多次排序:spark中使用基本的排序一般为sortByKey方法,在进行二次排序或者多次排序时需要自己想办法解决,sortByKey方法中主要是根据key键对象实现的compare方法进行排序的,根据compare返回的Int型整数来判断对比的原创 2017-12-28 10:20:17 · 1202 阅读 · 0 评论 -
Spark+Hadoop安装注意事项
1.安装之前选择合适的版本,避免使用被淘汰的版本2.注意不同版本Spark和不同Hadoop以及JDK和SDK版本的兼容性3.如果是作为学习,可以只搭建local模式,只有一个节点,Hadoop和Spark都可以只设置一个节点4.下载Idea使用时需要下载Scala插件,并导入JDK和SDK,还需要导入对应的Spark Jar包5.hadoop的data目录所在分区最好选用剩余磁盘原创 2017-12-21 19:44:51 · 650 阅读 · 0 评论 -
Spark搭建过程--记录
1.大部分参考http://www.cnblogs.com/shishanyuan/p/4699644.html这个博主写的,在此十分感谢这个博主。2.搭建完可能遇到找不到hadoop配置的情况。出现Error: Cannot find configuration directory: /etc/hadoop解决方法:在hadoop-env.sh 配置一条hadoop配置文件所在目录原创 2018-01-12 18:25:43 · 279 阅读 · 0 评论 -
Spark-处理GPS数据------记录
原始文件转CSV1、DMP文件导入Oracle数据库搭建好Oracle、Oracle客户端、PL/SQL,通过PL/SQL导入原始的DMP文件。可能出现的问题:PL/SQL》Pool中没有出现对应的选项。解决方法:先安装Office(注意Office 64位还是32位),再在PL/SQL中添加对应的驱动,然后导入数据,数据很大,需要耐心等待。2、Oracle数据库中导出CS原创 2018-01-12 18:45:37 · 2803 阅读 · 0 评论 -
Spark--LinearRegression(线性回归模型训练)--记录
代码记录:使用数据地址:链接: https://pan.baidu.com/s/1c2Pn4FQ 密码: ex9yimport org.apache.log4j.{Level, Logger}import org.apache.spark.ml.regression.LinearRegressionimport org.apache.spark.sql.SparkSession原创 2018-01-12 18:56:40 · 1735 阅读 · 0 评论 -
Spark--LinearRegressionWithSGD
测试数据:链接: https://pan.baidu.com/s/1i7owaXJ 密码: 4wqg代码记录:import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LabeledPoint, LinearRegressionWithSGD}import org.原创 2018-01-12 19:39:21 · 974 阅读 · 0 评论 -
Spark--LogisticRegressionWithLBFGS(多项逻辑回归也适用于二项逻辑回归)--记录
测试数据:链接: https://pan.baidu.com/s/1kWYIVAJ 密码: ig5v代码以及注释:import org.apache.spark.mllib.classification.LogisticRegressionWithLBFGSimport org.apache.spark.mllib.regression.LabeledPointimport org原创 2018-01-13 15:00:33 · 2791 阅读 · 0 评论 -
TensorFlow--卷积神经网络&GPS数据预测区块车流量大小模型测试代码
数据地址:链接:https://pan.baidu.com/s/1KDPmGenKzOJ2nUoWPYFavw 密码:ir84import numpy as npimport csvimport tensorflow as tfurl = "/home/enche/test/test.csv"data = csv.reader(open(url))x_ = []y_ = []for i in da...原创 2018-05-06 08:59:30 · 4108 阅读 · 4 评论