IT change the world-CSDN博客

原创机器学习算法之复合算法代码实战及其解析

#导入包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets#自定义数据X,y=datasets.make_moons(random_state=41,noise=0.1,n_samples=500)#绘制数据图形plt.scatter(X[y==0,0],X[y==0,1],c="r")plt.scatter(X[y==1,0],X[y==1,1],c="b")plt.show(.

2020-06-20 22:38:59 1141

原创机器学习算法之KNN算法代码实战及解析

#从sklearn导入数据集import numpy as npfrom sklearn import datasetsirises=datasets.load_iris()X_train=irises.datay_train=irises.target#导入模块，进行数据训练集和测试数据集的分割from sklearn import model_selection#train_test_split返回一个列表，有四个值，分别接受X_train,X_test,y_train,y_tes.

2020-06-20 22:33:22 626

原创机器学习算法之支持向量机代码实战及解析

import numpy as np #导入科学计算库import matplotlib.pyplot as plt #画图from sklearn import datasets #导入数据iris=datasets.load_iris() #导入鸢尾花数据#获取特征数据和标签数据X=iris.data #数据y=iris.target #标签#进行筛选，选择标签为0和1的样本，并且特征选择前2个X=X[y&lt.

2020-06-20 22:29:26 819

原创解决报错：ImportError: No module named model_selection

from sklearn.model_selection import train_test_splitImportError: No module named 'sklearn.model_selection'报错

2020-06-18 23:17:33 461

原创 PyCharm：Django框架搭建Spark开发环境

1.安装好JDK：JDK所有人肯定都装了，这里就不细说明了。2.安装Hadoop并配置环境变量：hadoop下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/解压hadoop-2.8.3.tar.gz特定路径，如：D:\hadoop-2.8.3添加系统变量HADOOP_HOME：D:\hadoop-2.8.3在系统变量PATH中添加：D:\hadoop-2.8.3\bin安装组件winutils：将winuti

2020-06-08 23:06:20 1433

原创 docker pull {镜像}的时候报错：Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting

docker pull image报错：Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

2020-06-03 20:59:30 8315 1

原创机器学习之沙鼠走迷宫

主函数：main.py__author__ = 'alan'from maze import *from q import *def printKey(event): if event.keysym == 'Left': maze.mouse.move_left() elif event.keysym == 'Right': m...

2020-05-01 21:57:15 657 1

原创机器学习的主要研究领域、基本概念和相关术语的解释

1.主要研究领域：1.1机器学习的两大学派：机器学习：人工智能的重要分支构造具有学习能力的智能系统知识、推理、学习手段：统计，逻辑，代数……统计机器学习从大量样本出发，运用统计方法，发现统计规律有监督学习、无监督学习、半监督学习问题：分类，聚类，回归...

2020-05-01 21:04:49 10435

原创 sparkSql分析函数和窗口函数（rows/range）的语法及案例

sparkSql分析函数（rows/range）的语法及案例 sum、max、 min、 count、 avg等聚合函数 lead、 lag等比较函数 rank等排名函数2.1 rank()排名函数案例：2.2lag() ，lead() 函数使用及案例：4.3range()和rows()的使用及案例： rows/range: 窗口子句，是在分组(partition by)后，表示组内的子分组(也即窗口)，是分析函数的计算范围窗口

2020-04-29 22:47:36 3575

原创单节点的kafka安装及使用及kafka的简介

1.zookeeper的配置：dataDir=/tmp/zookeeperclientPort=21812.kafka的配置：broker.id=0listeners=PLAINTEXT://spark1:9092log.dirs=/opt/softwares/kafka_2.11-2.4.1/logzookeeper.connect=spark1:2181/kafka...

2020-04-28 20:45:06 442 1

原创初识Hbase：第一个Hbase程序

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;p...

2020-04-28 19:45:13 206

原创 Hbase输入Int类型数据默认转换为字符类型的原因及缺陷

1.Hbase shell 中插入带int类型的数据在Hbase的shell命令中输入插入一行value为int类型的数据put 'hbase1','row','hb1:age',30Hbase会将int类型数据自动转换为字符类型来存储。方便我们在shell中观察和操作。2.在Java API中编写插入带int类型的数据在Java API插入int型数据会保存为ASCII形式。...

2020-04-27 20:49:45 1816

原创 Hbase的过滤器操作ValueFilter和SingleColumnValueFilter

1.ValueFilter：import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.CompareOperator;import org.apache.hadoop.hbase.HBaseConfiguration;impor...

2020-04-27 20:35:43 1419 1

原创 Hbase的CRUD和matation操作

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hb...

2020-04-27 20:25:48 396

原创使用Java API对Hbase进行增删改查操作

1.对Hbase的增加操作import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.a...

2020-04-27 20:21:41 559

原创 spark连接mysql并操作数据库的增删改查

1.linux端启动mysql服务：server mysqld start 启动mysql服务进程netstat -anp | grep 3306 查看mysql服务是否启动mysql -u root -p 使用root用户登陆mysql输入密码即可登陆，首次登陆或者无密码，则不需要密码直接回车即可。2.建立数据库集表create database sp...

2020-04-27 20:03:30 2403 1

原创 RDD与DataFrame与Dataset之间的关系及转换关系

RDD与DataFrame与Dataset之间的转换关系：

2020-04-26 20:48:45 485

原创 Oracle大型数据库卸载详细步骤

注：Oracle数据库卸载并非单纯卸载那么简单，需要删除相关服务等卸载步骤：1、停服务在运行中键入services.msc,进入服务管理页面停止所有Oracle服务2、删程序在运行中键入control，找到Oracle相关程序，卸载，建议使用360软件管理，可以比较有效的清除残留及无效快捷方式，如文件夹未删除，可手动删除文件夹3、删除相关注册项(不要多删、误删)...

2020-04-23 21:26:38 387

原创 CSDN博客积分等级明细

一、博客积分规则：博客积分是CSDN对用户努力的认可和奖励，也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下：1、每发布一篇原创或者翻译文章：可获得10分；2、每发布一篇转载文章：可获得2分；3、博主的文章每被评论一次：可获得1分；4、每发表一次评论：可获得1分（自己给自己评论、博主回复评论不获得积分）；5、博文阅读次数每超过100次：可获得1分...

2020-04-22 21:41:34 637

原创第一个Django项目：博客案例

1.项目结构：2.Blog.settings.py中的INSTALLED_APPS添加'index',属性值。可以搜索到index页面。3.配置主从urls：在Blog里配置主urls，可以映射到从urls。这样配置可以方便以后的URL管理。urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^blog/...

2020-04-22 21:30:56 357

原创 Hbase的基本操作以及多版本的设置

1.建表create 'hbase1','hb1'2.查看库中有哪些表list3.用describe命令来查看表属性describe 'hbase1'4.增加一个列族alter 'hbase1','hb2'5.插入数据put 'hbase1','row','hb1:name','zhangsan'//一次只能put一个column6....

2020-04-20 21:21:29 1240

原创 HBase的伪分布式安装详细版

1.下载HBase安装包：网盘链接：链接：https://pan.baidu.com/s/1KmZKAxlq_3SK4iPGBheqNA提取码：vwuq2.安装前的准备;2.1:安装vm虚拟机2.2：配置网络和IP内存2.3：关闭防火墙 [root@localhost ~]# chkconfig iptables off2.4：禁用selinux ...

2020-04-20 21:05:17 902

原创 Spark内置算法：Connected Components算法解析及案例和Triangle Counting算法解析及案例

1.Connected Components含义：连通分量算法用图的最低编号顶点的ID标记图的每个连通分量。例如，在社交网络中，连接的组件可以近似于群集。案例：package sparkGraphXimport org.apache.spark.graphx.{GraphLoader, VertexId, VertexRDD}import org.apache.spark.{Sp...

2020-04-20 17:20:18 1318

原创 Spark复习十一：内置图算法，PageRank算法的解析以及简单案例

1.PageRank算法描述：1.1用1/N的页面排名值初始化每个顶点，N是图中顶点总数和。1.2循环：每个顶点，沿着出边发送PR值1/M，M为当前顶点的出度。当每个顶点从相邻顶点收到其他发送的PR值后，合计这些PR值后作为当前当前顶点新的PR值。图中顶点的PR与上一个迭代相比没有显著变化，则退出迭代...

2020-04-20 16:00:59 1021

原创 Spark复习十：图聚合操作（aggregateMessages ）和 Pregel 和 Pregel API以及操作案例分析

1.图聚合操作aggregateMessages:1.1 聚合操作：aggregateMessages：许多图分析任务中的一个关键步骤是聚集每个顶点的邻域信息，在GraphX中最核心的聚合操作就是aggregateMessages.它主要功能是向邻边发消息，合并邻边收到的消息.1.2.sendMsg和mergeMsg:sendMsg:sendMsg 函数以EdgeCont...

2020-04-19 21:16:07 1281

原创 Spark复习九：Spark GraphX 入门以及Spark图聚合操作相关案例

1.1 图的基本概念：定义：图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。作用：图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面常用应用：在地图应用中找到最短路径，基于与他人的相似度图，推荐产品。1.2Spark GraphX：GraphX是Spark中用于图形和图形并行计算的新组件。...

2020-04-19 20:54:04 818

原创 Spark复习八：简述Spark运行流程以及Spark分区以及简述SparkContext

1.简述Spark运行流程：1.构建Spark Application的运行环境,启动SparkContext2. SparkContext向资源管理器(可以是Standalone, Mesos, Yarm)申请运行Executor资源，并启动StandaloneExecutorbackend3. Executor向SparkContext申请Task4. SparkConte...

2020-04-18 21:47:05 1237

原创 Spark复习七：Spark 连接并操作Mysql

1.步骤： 1.spark 连接并操作mysql 2.退出已有连接的spark：scala> :q 3.加载mysql的jar1.连接Mysql：[root@spark1spark-2.4.5-bin-hadoop2.7]# spark-shell --jars /home...

2020-04-18 21:24:11 444

原创 Spark复习六：DataSet操作

dataSet操作：scala> case class Customer(id:Int,firstName:String,lastName:String,homePhone:String,workPhone:String,address:String,city:String,state:String,zipCode:String)defined class Customerscal...

2020-04-18 21:12:30 464

原创 Spark复习五：DataFrame API操作

1:直接读取文件：scala> val userDF=spark.read.format("csv").option("header","true").option("delimiter",",").load("file:///home/data/users.csv")userDF: org.apache.spark.sql.DataFrame = [user_id: string, ...

2020-04-18 20:54:57 635

原创 Spark复习四：SparkCore重点知识总结

1:RDD 是什么？ RDD 即弹性分布式数据集（Resilient Distributed DataSet),它具备像MR等数据流模型的容错性，能在并行计算中高效地进行数据共享进而提升计算性能。RDD中提供了一些转换操作，在转换过程中记录“血缘”关系，但在RDD中并不会存储真正的数据，只是对数据和操作的描述。 RDD 是只读的、分区记录的集合。RDD只能基本于稳定物理存储中的...

2020-04-18 20:42:24 326

原创 spark复习三：SparkJoin操作

1：准备customers.csvscala> val dfCustomers=spark.read.format("csv").option("delimiter",",").option("quote","\"").option("escape","\"").load("file:///home/data/customers.csv")dfCustomers: org.apache...

2020-04-18 20:37:57 636

原创数据挖掘最常见的六大任务和问题

1.分类问题：从训练样本中学习，构建一个函数（分类器），对样本的所属类别进行判别典型的分类问题：1.垃圾邮件识别2.文本分类3.信用评分4.欺诈检测5.图像识别6.用户流失预测7.营销响应预测8.广告点击率预估9.商品推荐2.聚类问题：从数据中探索样本之间的相似性，把特征相似的样本聚为一类，是一种无目标的探索性分析典型的聚类问题：1.用...

2020-04-17 21:42:35 3734

原创 spark复习二：Broadcast广播变量和accumulator累加器

1.shared variable共享变量：scala> val kvphone=sc.parallelize(List((1,"iphone"),(2,"xiaomi"),(3,"oppo"),(4,"huawei")))kvphone: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at pa...

2020-04-17 21:22:16 433

原创 spark复习一：sparkRDD的理论及相关操作

1.sparkRDD简介： Spark的核心是RDD(Resilient Distrubuted Dataset),弹性分布式数据集。由AMPLab实验室提出的，属于分布式内存系统的数据集应用。RDD能与其系统兼容，可以导入外部存储系统的数据集：HDFS、HBase或其他hadoop数据源。2.RDD的特性： RDD运算类型说明 ...

2020-04-17 21:05:13 326

原创对鸢尾花数据集进行预测

1.步骤：（1）从sklearn导入鸢尾花数据集（2）对数据集进行训练数据和测试数据划分，测试部分用来进行预测。（3）均值方差法进行数据归一化（注意：训练数据和测试数据都要进行）（4）网格搜索对三个参数（weights、p、n_neighbors）查找最优值。（1）knn算法生成器（2）打印最有参数和最好的预测率（3）对测试数据集里面的测试数据进行预测#从sklearn导入鸢...

2020-04-17 20:04:38 2762

原创基于Processing绘制的森林火灾模型

1.森林火灾模型的2-D元胞自动机的构建，同样模型也可适用于其他模型，比如传染病的传播等。2.规则：（1）在一个空场地（灰色），一棵树以pGrowth的机率成长。（2）如果其相邻树中有至少有一棵树正在燃烧，那么这颗树也会成为一棵燃烧树（红色）。（3）一棵燃烧树（红色）成为一个空场地（灰色）。（4）如果周围没有任何燃烧树，那么这个树成为燃烧树的可能性为pBurn。比如由雷击导致的...

2020-04-14 20:54:38 1610

原创 ETL数据清洗

1.需求：数据来源各种各样，大量的数据中难免会有脏数据，我们需要将脏数据清洗掉，提高数据的准确度。本次要将字段缺失的数据过滤掉，只留下保存度完整的数据。2.项目开发：（1）清洗数据类：package com.xnmzdx.mapreduce.etl;import java.io.IOException;import org.apache.hadoop.io.LongWr...

2020-04-13 21:13:48 601

原创 Storm实时订单分析项目

一．项目需求实时分析某电商网站产生的订单数据。分析订单的有效订单量、订单总金额、优惠后总金额、下单用户数。二．使用主要技术Kafka，Storm，Zookeeper，Redis，MySql三．项目架构架构解析：从web端获取数据订单数据，存入kafka中，storm处理订单数据，在kafka中读取数据，将处理完成的数据写入redis和mysql中四.项目开发：模...

2020-04-13 20:57:01 962 2

原创 spark配置连接hive

1.拷贝hive的hive-site.xml文件到spark的conf目录下2.修改spark中hive-site.xml文件添加以下：<configuration><property> <name>hive.metastore.uris</name><value>thrift://主机名或IP地址:9083</...

2020-04-13 15:08:19 983

点击广告行为预测数据集

order_storm.zip

空空如也