自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(20)
  • 资源 (1)
  • 收藏
  • 关注

原创 pyspark入门---机器学习实战预测婴儿出生率(二)使用ML库

机器学习实战预测婴儿出生率1.加载数据2.创建转换器3.创建预测器4.创建管道5.训练模型6.使用BinaryClassificationEvaluator对模型评估7.模型保存与调用在上一文中,主要对Spark MLlib机器学习库使用流程进行了介绍。从搭建环境开始,然后加载数据,探索数据,直到进行模型的训练与评估,最终进行未知数据的预测,即预测婴儿生存机会本文则来介绍如何使用ML机器学习库来实战ML!同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。**Pipelin

2020-05-13 08:46:45 2583 1

原创 pyspark入门---机器学习实战预测婴儿出生率(一)使用MLlib库

机器学习实战预测婴儿出生率1.加载数据2.数据的探索:特征相关性3.统计校验4.创建最后的待训练数据集5.划分训练集和测试集6.开始建模7.Logistic 回归模型8.选取出最具代表性的分类特征9.随机森林模型机器学习是通过算法对训练数据构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据的过程。简单点讲,机器学习就是通过一定的模型,让计算机可以从大量的数据中学习到相关的

2020-05-13 07:59:45 3955 2

原创 python数据清洗实战入门笔记(一)numpy和pandas

第一章:数据清洗常用工具1.numpy常用数据结构常用清洗工具:numpy常用数据结构:Numpy常用方法数组访问方法练习(jupyter)代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习(jupyter)代码下面是结果3.Pandas常用数据结构series和dataframeseriesdataframe常用方法练习(jupyter)代码下面是结果1.numpy常用数据结构常用清洗工具:目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使

2020-05-11 23:03:46 2139 1

原创 机器学习笔记(机器学习很难么???那必然难啊!!!)

机器学习第一章数据挖掘数据挖掘概念数据挖掘的模式类型第二章机器学习1 机器学习分类2 机器学习中的一些概念训练样本训练分类模型验证第三章无监督学习聚类K-means聚类算法K-means应用DBSCAN聚类算法DBSACN应用降维主成分分析(PCA)方差协方差和协方差矩阵特征向量和特征值算法过程基于聚类的“图像分割”实例 编写第四章监督学习1、 数据集的划分sklearn数据集介绍API分类和回归数据集返回类型2、sklearn转换器和估计器1.1 转换器1.2 估计器(sklearn机器学习算法的实现)1

2020-05-10 15:19:59 1741

原创 PySpark入门---机器学习实战:建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量(使用ML库)

使用PySpark的机器学习1.创建特征2. 使用字符串索引3.分类算法*1. 贝叶斯分类器**2. 多层感知器分类**3.决策树分类*4.回归模型1.线性模型2. 决策树回归*3. 梯度增强决策树*分类和回归ML库在Spark的帮助下,从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine-le

2020-05-27 12:55:11 1045

原创 python数据清洗实战入门笔记(七)总结

数据清洗总结数据清洗步骤函数大全数据清洗的内容数据清洗总结数据清洗步骤数据获取,使用read_csv或者read_excel数据探索,使用shape,describe或者info函数行列操作,使用loc或者iloc函数数据整合,对不同数据源进行整理数据类型转换,对不同字段数据类型进行转换分组汇总,对数据进行各个维度的计算处理重复值、缺失值和异常值以及数据离散化函数大全merge,concat函数常常用于数据整合pd.to_datetime常常用于日期格式转换str函数用于字符串

2020-05-18 07:49:45 596

原创 python数据清洗实战入门笔记(六)数据预处理

数据清洗之数据预处理1 重复值处理练习2 缺失值处理练习3 异常值处理练习4 数据离散化练习数据集地址:https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码:aai6数据集介绍:摩托车的销售情况数据Condition:摩托车新旧情况(new:新的 和used:使用过的)Condition_Desc:对当前状况的描述Price:价格Location:发获地址Model_Year:购买年份Mileage:里程Exterior_Color:车的

2020-05-18 07:44:34 725

原创 python数据清洗实战入门笔记(五)数据统计

数据清洗之数据统计数据分组方法练习1.1在线杂货店订单数据1.2 数据分组运算聚合函数使用练习分组对象与apply函数练习透视图与交叉表练习数据集地址:https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码:aai6数据分组方法• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等

2020-05-17 20:32:17 827

原创 python数据清洗实战入门笔记(四)数据转换

数据清洗之数据转换日期数据格式处理练习字符串数据处理练习高阶函数数据处理练习数据集地址:https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码:aai6日期数据格式处理练习import numpy as npimport pandas as pdimport osos.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv',

2020-05-16 11:34:13 610 1

原创 python数据清洗实战入门笔记(三)表处理

数据清洗之数据表处理数据筛选练习数据增加和删除练习数据的修改和查找练习数据整理练习层次化索引练习数据筛选练习import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str})#数据筛选#

2020-05-15 21:19:43 583

原创 python数据清洗实战入门笔记(二)文件操作

第二章:数据清洗之文件读取csv文件读写excel文件读写数据库文件读写这是一个关于淘宝母婴产品的用户消费行为的数据集,然后基于这个数据集,做数据清洗数据集地址:https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码:aai6csv文件读写import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')

2020-05-12 20:22:43 484

原创 pyspark入门---通过kmeans分析出租车数据并调用百度API进行可视化

通过kmeans分析出租车数据并进行可视化(1)数据准备(2)创建dataframe(3)kmeans聚类分析(4)调用百度API进行数据可视化(1)数据准备采用数据为出租车载客时的GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。CSV(Comma-Separated Values) 即逗号分隔值,文件以文本的方式存储表格数据(包含数字和文本)。其中每一行代表一条记录,每条记录被逗号分隔为字段,并且每条记录都有同样的字段序列。本实验一共181230条记录,具体文件格式见下表

2020-05-11 22:44:06 3541 8

原创 pyspark入门---通过协同过滤算法推荐电影

数据集是Movielens官网的ml-100k数据,下载地址https://grouplens.org/datasets/movielens/用jupyter实现比较好from pyspark.sql import SparkSessionuser_df=spark.read.text('data/u.user')user_df.show(10)##为用户数据添加 schemafrom pyspark import Rowuser_rdd=user_df.rdd.map(lambda

2020-05-10 23:11:52 2276 3

原创 pyspark入门---sparksql练习

sparksql实验1.实验数据说明:2.实验要求3.实验内容1.实验数据说明:Student字段说明:字段名类型备注snoint学号sclassint班级号snameDate姓名sgenderint性别sageint年龄Teacher字段说明:字段名类型备注tnoint教工号tnameint姓名tsexint性别tageint年龄Course字段说明:字段

2020-05-10 21:57:08 1399 4

原创 Opencv从入门到放弃---5.银行卡识别案例(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))

别人都是信用卡识别,我这里换成银行卡识别,甚至换成身份证,其实是一个原理,找到和银行卡数字匹配的字体,修改识别数字区域的宽和高,都能识别出来,原理就是根据模板数字进行匹配银行卡识别案例1.前期准备2.对模板图像进行预处理操作3.对信用卡进行处理# 导入工具包# opencv读取图片的格式为b g r# matplotlib图片的格式为 r g bimport numpy as npimport cv2from imutils import contoursimport matplotlib.

2020-05-10 15:15:21 1140

原创 Opencv从入门到放弃---4.直方图与模板匹配(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))

直方图与模板匹配直方图mask操作直方图均衡化自适应直方图均衡化模板匹配匹配多个对象import cv2 #opencv读取的格式是BGRimport numpy as npimport matplotlib.pyplot as plt#Matplotlib是RGB%matplotlib inline def cv_show(img,name): cv2.imshow(name,img) cv2.waitKey() cv2.destroyAllWindows()直方图

2020-05-10 12:41:06 465

原创 Opencv从入门到放弃---3.图像梯度与轮廓(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))

图像梯度与轮廓Sobel算子Scharr算子laplacian算子Canny边缘检测图像金字塔图像轮廓傅里叶变换滤波Sobel算子如果出现负数则默认为0img = cv2.imread('data/pie.png',cv2.IMREAD_GRAYSCALE)cv2.imshow("img",img)cv2.waitKey()cv2.destroyAllWindows()dst = cv2.Sobel(src, ddepth, dx, dy, ksize)ddepth:图像的深度dx

2020-05-10 11:27:29 610

原创 Opencv从入门到放弃---2.图像处理(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))

图像处理灰度图HSV**图像阈值**图像平滑形态学-腐蚀操作形态学-膨胀操作开运算与闭运算梯度运算礼帽与黑帽灰度图import cv2 #opencv读取的格式是BGRimport numpy as npimport matplotlib.pyplot as plt#Matplotlib是RGB%matplotlib inline img=cv2.imread('data/cat.jpg')img_gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)img

2020-05-10 09:10:49 501

原创 Opencv从入门到放弃---1.图像基本操作(OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v))

1.图像基本操作数据读取-图像cv2.IMREAD_COLOR:彩色图像cv2.IMREAD_GRAYSCALE:灰度图像import cv2 #opencv读取的格式是BGRimport matplotlib.pyplot as pltimport numpy as np %matplotlib inline img=cv2.imread('data/cat.jpg')img#图像的显示,也可以创建多个窗口cv2.imshow('image',img) #等待时间,毫秒级

2020-05-09 13:24:58 488

原创 pyspark实例化GraphFrame出现 java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI问题

如标题所言,创建GraphFrame,会出现Py4JJavaError: An error occurred while calling o138.loadClass.: java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI这个问题在国内搜了半天没见有用的解决方案,最后在stackoverflow上找到了...

2020-05-07 22:53:27 3517 4

web-Google.txt.gz

谷歌图谱数据集,适合spark进行图计算 # Directed graph (each unordered pair of nodes is saved once): web-Google.txt # Webgraph from the Google programming contest, 2002 # Nodes: 875713 Edges: 5105039 # FromNodeId ToNodeId

2020-05-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除