- 博客(23)
- 收藏
- 关注
原创 spark快速大数据分析之学习记录(六)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程RDD常用函数【Python】一、转化操作函数1.filter:对RDD中每个元素进行操作,过滤出符合条件的元素,返回一个新RDD2.map:对RDD中每个元素进行操作,返回一个新RDD,元素个数相同3.flatMap:对RDD中每个元素进行操作,然后将得到的数据集“拍扁”,返回一个新的RDD,元素...
2019-06-25 23:28:17 215
原创 spark快速大数据分析之学习记录(五)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程【上周毕业典礼,放肆high~~~】1、RDD基础RDD(risilient distributed dataset )弹性分布式数据集,简单理解成不可变的分布式的元素集合2.创建RDD【python】创建RDD有两种:外部读取文件和自定义传递集合给SparkContextshell命令:lines...
2019-06-24 23:00:07 272
原创 spark快速大数据分析之学习记录(四)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一、初始化SparkContext【基于python】1.新建一个py文件,用于存放python脚本(备注:我在桌面建了一个文件夹py,主要用来存放python脚本)shell命令:sudo vim "test.py"然后在test.py文本中输入以下程序:from pyspark import Sp...
2019-06-18 00:05:19 283
原创 spark快速大数据分析之学习记录(三)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一、编写第一个pyspark程序1.进入spark文件夹,该文件夹下有一个README.md文件,统计该文件的行数,以及输出第一行2.运行sparkshell命令:./bin/pyspark #运行spark运行截图:3.运行python语句shell命令:>>>...
2019-06-16 18:33:23 332
原创 spark快速大数据分析之学习记录(二)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程一.spark下载和安装【本地模式】【系统:linux】下载spark前,需要确保你之前已经下载好了jdk和Python,以下是我的整个下载和安装过程。1.下载jdk:shell命令:sudo apt-get install default-jre default-jdk运行截图:下载后的...
2019-06-16 17:01:27 215
原创 spark快速大数据分析之学习记录(一)
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程1.什么是Spark?Spark是一个用来实现快速而通用的集群计算的平台。其扩展了广泛使用的Mapreduce计算模型,能够在内存中进行计算,提供了基于Python,Java,Scala和SQL的简单易用的API,内含丰富的程序库,并能和其他大数据工具密切配合使用,如Spark可以运行在Hadoop集群上,访问任意的Ha...
2019-06-16 13:34:08 176
原创 回归算法的几个小感悟
最近在准备秋招,被狠狠的打击了,思来想去觉得还是自己差劲,所以又抱起书本和教程,重新学一遍机器学习的相关知识,发现果然是温故而知新,,,以前一些很模糊的概念,现在看起来容易理解多了,于是就写下来,方便以后自己学习。。。第一点:当时学回归的时候,被各种线性回归弄混淆死了,又是线性回归又是岭回归,然后一翻身,又出来个LASSO回归,等等,这边怎么又冒出个ElasticNet回归。。。现在看看,其实...
2018-08-23 17:55:40 2362 1
转载 python多线程和多进程
搞定python多线程和多进程1 概念梳理:1.1 线程1.1.1 什么是线程线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务。一个线程是一个execution context(执行上下文),即一个cpu执行时所需要的一串指令。1.1.2 线程的...
2018-08-16 10:25:21 211
原创 MYSQL学习笔记
mysql笔记----------------创建数据库,该命令的作用:1. 如果数据库不存在则创建,存在则不创建。2. 创建RUNOOB数据库,并设定编码集为utf8create database if not exists RUNOOB default charset utf8 collate utf8_general_ci;--drop 命令删除数据库drop database ...
2018-08-07 16:12:50 323
原创 hive学习笔记续2
--group by 语句,常和聚合函数一起使用,sum,count,avg...hive> select year(ymd),avg(price_close) from stocks where exchange='nasdaq' and symbol='aapl' group by year(ymd);---having语句hive> select year(ymd...
2018-07-31 10:11:31 598
原创 hive学习笔记续1
-----2018.7.25--增加列,在分区字段之前ALTER TABLE log_message ADD COLUMNS(app_name STRING COMMENT 'application name',session_id STRING COMMENT 'the current session id');--删除或替换列,只将需要的列写出即可,未写出的列即等于删除ALTER...
2018-07-26 08:45:32 434
原创 hive学习笔记
/*hive 学习笔记*//*--------------------------------------------------------------------2018.7.22-------------------------------------------------------------------------------*//*hive基础知识: hadoop...
2018-07-23 08:46:56 822
原创 神经网络-反向传播
#coding:utf-8import numpy as np#定义双曲函数和他们的导数def tanh(x): return np.tanh(x)def tanh_deriv(x): return 1.0 - np.tanh(x)**2def logistic(x): return 1/(1 + np.exp(-x))def logistic_der...
2018-06-07 10:34:52 307
原创 感知器简单二分类判别模型-matlab编码
function [w,b]=perceptron_original_form(x,y,learning)%x 训练数据集%y 标签{-1,1}%learning 学习率 (0,1]%w 权重向量%b 偏置%%%初始化[m,n]=size(x);w=zeros(1,n);b=0;%%flag=0;while (flag==0) for i=1:m ...
2018-04-13 10:20:14 2556
原创 使用matlab编写的核模糊聚类KFCM算法
function [c,u,dist]=self_kfcm(data,k,iter,err,w)%c 返回各类中心%u 返回隶属度矩阵%dist 返回各类内距离之和%data 数据集%n 希望聚成的类数%iter 迭代数%err 最小误差%w 高斯核函数的宽度%%%初始化[m,n]=size(data);c=zeros(k,n);u=zeros(m,k);dist=[]...
2018-04-10 16:00:36 6070 6
原创 matlab-kmeans,自制
function [c,label,dist_k]=self_kmeans(data,k,iter,err)%data 输入数据集(全自变量)%k 类数%iter 迭代数%err 误差变化量%c 返回的各类中心(向量)%label 返回的各数据类别%dist_k 返回各个类内距离和[m,n]=size(data);%返回data的行,列数c=zeros(k,n);dist_k=...
2018-04-08 20:45:14 362
转载 RBF神经网络与BP神经网络的比较
RBF神经网络与BP神经网络都是非线性多层前向网络,它们都是通用逼近器。对于任一个BP神经网络,总存在一个RBF神经网络可以代替它,反之亦然。但是这两个网络也存在着很多不同点,这里从网络结构、训练算法、网络资源的利用及逼近性能等方面对RBF神经网络和BP神经网络进行比较研究。 (1) 从网络结...
2018-03-29 21:16:44 4662
原创 matlab 连接mysql数据库
1、下载mysql的jdbc驱动,https://www.cr173.com/soft/45333.html,此链接jdbc亲测有用(解压的时候注意,会有很多附带的软件,记得把√取消掉)。2、将mysql-connector-java-5.1.44.jar复制到D:\Program Files\MATLAB\matlabR2010b\java\jar\toolbox文件夹下3、在D:\Progra...
2018-03-28 17:24:28 499
转载 matlab的二维卷积操作
matlab的二维卷积操作 MATLAB的conv2函数实现步骤(conv2(A,B)):其中,矩阵A和B的尺寸分别为ma...
2018-03-27 16:30:38 2102
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人