自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (2)
  • 收藏
  • 关注

原创 机器学习算法之复合算法代码实战及其解析

#导入包import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasets#自定义数据X,y=datasets.make_moons(random_state=41,noise=0.1,n_samples=500)#绘制数据图形plt.scatter(X[y==0,0],X[y==0,1],c="r")plt.scatter(X[y==1,0],X[y==1,1],c="b")plt.show(.

2020-06-20 22:38:59 866

原创 机器学习算法之KNN算法代码实战及解析

#从sklearn导入数据集import numpy as npfrom sklearn import datasetsirises=datasets.load_iris()X_train=irises.datay_train=irises.target#导入模块,进行数据训练集和测试数据集的分割from sklearn import model_selection#train_test_split返回一个列表,有四个值,分别接受X_train,X_test,y_train,y_tes.

2020-06-20 22:33:22 512

原创 机器学习算法之支持向量机代码实战及解析

import numpy as np #导入科学计算库import matplotlib.pyplot as plt #画图from sklearn import datasets #导入数据iris=datasets.load_iris() #导入鸢尾花数据#获取特征数据和标签数据X=iris.data #数据y=iris.target #标签#进行筛选,选择标签为0和1的样本,并且特征选择前2个X=X[y&lt.

2020-06-20 22:29:26 702

原创 解决报错:ImportError: No module named model_selection

from sklearn.model_selection import train_test_splitImportError: No module named 'sklearn.model_selection'报错

2020-06-18 23:17:33 282

原创 PyCharm:Django框架搭建Spark开发环境

1.安装好JDK:JDK所有人肯定都装了,这里就不细说明了。2.安装Hadoop并配置环境变量:hadoop下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/解压hadoop-2.8.3.tar.gz特定路径,如:D:\hadoop-2.8.3添加系统变量HADOOP_HOME:D:\hadoop-2.8.3在系统变量PATH中添加:D:\hadoop-2.8.3\bin安装组件winutils:将winuti

2020-06-08 23:06:20 1143

原创 docker pull {镜像}的时候报错:Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting

docker pull image报错:Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

2020-06-03 20:59:30 4595 1

原创 机器学习之沙鼠走迷宫

主函数:main.py__author__ = 'alan'from maze import *from q import *def printKey(event): if event.keysym == 'Left': maze.mouse.move_left() elif event.keysym == 'Right': m...

2020-05-01 21:57:15 592 1

原创 机器学习的主要研究领域、基本概念和相关术语的解释

1.主要研究领域:1.1机器学习的两大学派:机器学习:人工智能的重要分支 构造具有学习能力的智能系统 知识、推理、学习 手段:统计,逻辑,代数……统计机器学习 从大量样本出发,运用统计方法,发现统计规律 有监督学习、无监督学习、半监督学习 问题:分类,聚类,回归...

2020-05-01 21:04:49 9567

原创 sparkSql分析函数和窗口函数(rows/range)的语法及案例

sparkSql分析函数(rows/range)的语法及案例 sum、max、 min、 count、 avg等聚合函数 lead、 lag等比较函数 rank等排名函数2.1 rank()排名函数案例:2.2lag() ,lead() 函数使用及案例:4.3range()和rows()的使用及案例: rows/range: 窗口子句,是在分组(partition by)后,表示组内的子分组(也即窗口),是分析函数的计算范围窗口

2020-04-29 22:47:36 3119

原创 单节点的kafka安装及使用及kafka的简介

1.zookeeper的配置:dataDir=/tmp/zookeeperclientPort=21812.kafka的配置:broker.id=0listeners=PLAINTEXT://spark1:9092log.dirs=/opt/softwares/kafka_2.11-2.4.1/logzookeeper.connect=spark1:2181/kafka...

2020-04-28 20:45:06 354 1

原创 初识Hbase:第一个Hbase程序

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;p...

2020-04-28 19:45:13 136

原创 Hbase输入Int类型数据默认转换为字符类型的原因及缺陷

1.Hbase shell 中插入带int类型的数据在Hbase的shell命令中输入插入一行value为int类型的数据put 'hbase1','row','hb1:age',30Hbase会将int类型数据自动转换为字符类型来存储。方便我们在shell中观察和操作。2.在Java API中编写插入带int类型的数据在Java API插入int型数据会保存为ASCII形式。...

2020-04-27 20:49:45 1620

原创 Hbase的过滤器操作ValueFilter和SingleColumnValueFilter

1.ValueFilter:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.CompareOperator;import org.apache.hadoop.hbase.HBaseConfiguration;impor...

2020-04-27 20:35:43 1212 1

原创 Hbase的CRUD和matation操作

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.apache.hadoop.hb...

2020-04-27 20:25:48 252

原创 使用Java API对Hbase进行增删改查操作

1.对Hbase的增加操作import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.TableName;import org.a...

2020-04-27 20:21:41 482

原创 spark连接mysql并操作数据库的增删改查

1.linux端启动mysql服务:server mysqld start 启动mysql服务进程netstat -anp | grep 3306 查看mysql服务是否启动mysql -u root -p 使用root用户登陆mysql输入密码即可登陆,首次登陆或者无密码,则不需要密码直接回车即可。2.建立数据库集表create database sp...

2020-04-27 20:03:30 2149 1

原创 RDD与DataFrame与Dataset之间的关系及转换关系

RDD与DataFrame与Dataset之间的转换关系:

2020-04-26 20:48:45 406

原创 Oracle大型数据库卸载详细步骤

注:Oracle数据库卸载并非单纯卸载那么简单,需要删除相关服务等卸载步骤:1、停服务 在运行中键入services.msc,进入服务管理页面停止所有Oracle服务2、删程序 在运行中键入control,找到Oracle相关程序,卸载,建议使用360软件管理,可以比较有效的清除残留及无效快捷方式,如文件夹未删除,可手动删除文件夹3、删除相关注册项(不要多删、误删)...

2020-04-23 21:26:38 303

原创 CSDN博客积分等级明细

一、博客积分规则:博客积分是CSDN对用户努力的认可和奖励,也是衡量博客水平的重要标准。博客等级也将由博客积分唯一决定。积分规则具体如下:1、每发布一篇原创或者翻译文章:可获得10分;2、每发布一篇转载文章:可获得2分;3、博主的文章每被评论一次:可获得1分;4、每发表一次评论:可获得1分(自己给自己评论、博主回复评论不获得积分);5、博文阅读次数每超过100次:可获得1分...

2020-04-22 21:41:34 482

原创 第一个Django项目:博客案例

1.项目结构:2.Blog.settings.py中的INSTALLED_APPS添加'index',属性值。可以搜索到index页面。3.配置主从urls:在Blog里配置主urls,可以映射到从urls。这样配置可以方便以后的URL管理。urlpatterns = [ url(r'^admin/', admin.site.urls), url(r'^blog/...

2020-04-22 21:30:56 271

原创 Hbase的基本操作以及多版本的设置

1.建表create 'hbase1','hb1'2.查看库中有哪些表list3.用describe命令来查看表属性describe 'hbase1'4.增加一个列族alter 'hbase1','hb2'5.插入数据put 'hbase1','row','hb1:name','zhangsan'//一次只能put一个column6....

2020-04-20 21:21:29 1160

原创 HBase的伪分布式安装详细版

1.下载HBase安装包:网盘链接:链接:https://pan.baidu.com/s/1KmZKAxlq_3SK4iPGBheqNA提取码:vwuq2.安装前的准备;2.1:安装vm虚拟机2.2:配置网络和IP内存2.3:关闭防火墙 [root@localhost ~]# chkconfig iptables off2.4:禁用selinux ...

2020-04-20 21:05:17 797

原创 Spark内置算法:Connected Components算法解析及案例和Triangle Counting算法解析及案例

1.Connected Components含义:连通分量算法用图的最低编号顶点的ID标记图的每个连通分量。例如,在社交网络中,连接的组件可以近似于群集。案例:package sparkGraphXimport org.apache.spark.graphx.{GraphLoader, VertexId, VertexRDD}import org.apache.spark.{Sp...

2020-04-20 17:20:18 1123

原创 Spark复习十一:内置图算法,PageRank算法的解析以及简单案例

1.PageRank算法描述:1.1用1/N的页面排名值初始化每个顶点,N是图中顶点总数和。1.2循环: 每个顶点,沿着出边发送PR值1/M,M为当前顶点的出度。 当每个顶点从相邻顶点收到其他发送的PR值后,合计这些PR值后作为当前当前顶点新的PR值。 图中顶点的PR与上一个迭代相比没有显著变化,则退出迭代...

2020-04-20 16:00:59 842

原创 Spark复习十:图聚合操作(aggregateMessages )和 Pregel 和 Pregel API以及操作案例分析

1.图聚合操作aggregateMessages:1.1 聚合操作:aggregateMessages:许多图分析任务中的一个关键步骤是聚集每个顶点的邻域信息,在GraphX中最核心的聚合操作就是aggregateMessages.它主要功能是向邻边发消息,合并邻边收到的消息.1.2.sendMsg和mergeMsg:sendMsg:sendMsg 函数以EdgeCont...

2020-04-19 21:16:07 997

原创 Spark复习九:Spark GraphX 入门以及Spark图聚合操作相关案例

1.1 图的基本概念:定义:图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。作用:图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面常用应用:在地图应用中找到最短路径,基于与他人的相似度图,推荐产品。1.2Spark GraphX:GraphX是Spark中用于图形和图形并行计算的新组件。...

2020-04-19 20:54:04 662

原创 Spark复习八:简述Spark运行流程以及Spark分区以及简述SparkContext

1.简述Spark运行流程:1.构建Spark Application的运行环境,启动SparkContext2. SparkContext向资源管理器(可以是Standalone, Mesos, Yarm)申请运行Executor资源, 并启动StandaloneExecutorbackend3. Executor向SparkContext申请Task4. SparkConte...

2020-04-18 21:47:05 1144

原创 Spark复习七:Spark 连接并操作Mysql

1.步骤: 1.spark 连接并操作mysql 2.退出已有连接的spark:scala> :q 3.加载mysql的jar1.连接Mysql:[[email protected]]# spark-shell --jars /home...

2020-04-18 21:24:11 335

原创 Spark复习六:DataSet操作

dataSet操作:scala> case class Customer(id:Int,firstName:String,lastName:String,homePhone:String,workPhone:String,address:String,city:String,state:String,zipCode:String)defined class Customerscal...

2020-04-18 21:12:30 324

原创 Spark复习五:DataFrame API操作

1:直接读取文件:scala> val userDF=spark.read.format("csv").option("header","true").option("delimiter",",").load("file:///home/data/users.csv")userDF: org.apache.spark.sql.DataFrame = [user_id: string, ...

2020-04-18 20:54:57 496

原创 Spark复习四:SparkCore重点知识总结

1:RDD 是什么? RDD 即弹性分布式数据集(Resilient Distributed DataSet),它具备像MR等数据流模型的容错性,能在并行计算中高效地进行数据共享进而提升计算性能。RDD中提供了一些转换操作,在转换过程中记录“血缘”关系,但在RDD中并不会存储真正的数据,只是对数据和操作的描述。 RDD 是只读的、分区记录的集合。RDD只能基本于稳定物理存储中的...

2020-04-18 20:42:24 256

原创 spark复习三:SparkJoin操作

1:准备customers.csvscala> val dfCustomers=spark.read.format("csv").option("delimiter",",").option("quote","\"").option("escape","\"").load("file:///home/data/customers.csv")dfCustomers: org.apache...

2020-04-18 20:37:57 506

原创 数据挖掘最常见的六大任务和问题

1.分类问题:从训练样本中学习,构建一个函数(分类器),对样本的所属类别进行判别典型的分类问题:1.垃圾邮件识别2.文本分类3.信用评分4.欺诈检测5.图像识别6.用户流失预测7.营销响应预测8.广告点击率预估9.商品推荐2.聚类问题:从数据中探索样本之间的相似性,把特征相似的样本聚为一类,是一种无目标的探索性分析典型的聚类问题:1.用...

2020-04-17 21:42:35 3326

原创 spark复习二:Broadcast广播变量和accumulator累加器

1.shared variable共享变量:scala> val kvphone=sc.parallelize(List((1,"iphone"),(2,"xiaomi"),(3,"oppo"),(4,"huawei")))kvphone: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[0] at pa...

2020-04-17 21:22:16 344

原创 spark复习一:sparkRDD的理论及相关操作

1.sparkRDD简介: Spark的核心是RDD(Resilient Distrubuted Dataset),弹性分布式数据集。由AMPLab实验室提出的,属于分布式内存系统的数据集应用。RDD能与其系统兼容,可以导入外部存储系统的数据集:HDFS、HBase或其他hadoop数据源。2.RDD的特性: RDD运算类型 说明 ...

2020-04-17 21:05:13 246

原创 对鸢尾花数据集进行预测

1.步骤:(1)从sklearn导入鸢尾花数据集(2)对数据集进行训练数据和测试数据划分,测试部分用来进行预测。(3)均值方差法进行数据归一化(注意:训练数据和测试数据都要进行)(4)网格搜索对三个参数(weights、p、n_neighbors)查找最优值。(1)knn算法生成器(2)打印最有参数和最好的预测率(3)对测试数据集里面的测试数据进行预测#从sklearn导入鸢...

2020-04-17 20:04:38 2561

原创 基于Processing绘制的森林火灾模型

1.森林火灾模型的2-D元胞自动机的构建,同样模型也可适用于其他模型,比如传染病的传播等。2.规则:(1)在一个空场地(灰色),一棵树以pGrowth的机率成长。(2)如果其相邻树中有至少有一棵树正在燃烧,那么这颗树也会成为一棵燃烧树(红色)。(3)一棵燃烧树(红色)成为一个空场地(灰色)。(4)如果周围没有任何燃烧树,那么这个树成为燃烧树的可能性为pBurn。比如由雷击导致的...

2020-04-14 20:54:38 1434

原创 ETL数据清洗

1.需求:数据来源各种各样,大量的数据中难免会有脏数据,我们需要将脏数据清洗掉,提高数据的准确度。本次要将字段缺失的数据过滤掉,只留下保存度完整的数据。2.项目开发: (1)清洗数据类:package com.xnmzdx.mapreduce.etl;import java.io.IOException;import org.apache.hadoop.io.LongWr...

2020-04-13 21:13:48 519

原创 Storm实时订单分析项目

一.项目需求实时分析某电商网站产生的订单数据。分析订单的有效订单量、订单总金额、优惠后总金额、下单用户数。二.使用主要技术Kafka,Storm,Zookeeper,Redis,MySql三.项目架构架构解析:从web端获取数据订单数据,存入kafka中,storm处理订单数据,在kafka中读取数据,将处理完成的数据写入redis和mysql中四.项目开发:模...

2020-04-13 20:57:01 772 2

原创 spark配置连接hive

1.拷贝hive的hive-site.xml文件到spark的conf目录下2.修改spark中hive-site.xml文件添加以下:<configuration><property> <name>hive.metastore.uris</name><value>thrift://主机名或IP地址:9083</...

2020-04-13 15:08:19 896

order_storm.zip

利用storm实时分析的技术,对大量订单进行实时分析。分析订单的有效订单量、订单总金额、优惠后总金额、下单用户数。使用的技术包括Kafka,Storm,Zookeeper,Redis,MySql。

2020-04-13

点击广告行为预测数据集

该数据集包括训练集train.csv,训练集结果train_label.csv,预测集test.csv,以及结果的保存样式submission.csv。

2020-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除