2020年05月_魔仙大佬

原创 pyspark入门---机器学习实战预测婴儿出生率（二）使用ML库

机器学习实战预测婴儿出生率1.加载数据2.创建转换器3.创建预测器4.创建管道5.训练模型6.使用BinaryClassificationEvaluator对模型评估7.模型保存与调用在上一文中，主要对Spark MLlib机器学习库使用流程进行了介绍。从搭建环境开始，然后加载数据，探索数据，直到进行模型的训练与评估，最终进行未知数据的预测，即预测婴儿生存机会本文则来介绍如何使用ML机器学习库来实战ML！同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。**Pipelin

2020-05-13 08:46:45 2585 1

原创 pyspark入门---机器学习实战预测婴儿出生率（一）使用MLlib库

机器学习实战预测婴儿出生率1.加载数据2.数据的探索:特征相关性3.统计校验4.创建最后的待训练数据集5.划分训练集和测试集6.开始建模7.Logistic 回归模型8.选取出最具代表性的分类特征9.随机森林模型机器学习是通过算法对训练数据构建出模型并对模型进行评估，评估的性能如果达到要求就拿这个模型来测试其他的数据，如果达不到要求就要调整算法来重新建立模型，再次进行评估，如此循环往复，最终获得满意的经验来处理其他的数据的过程。简单点讲，机器学习就是通过一定的模型，让计算机可以从大量的数据中学习到相关的

2020-05-13 07:59:45 3955 2

原创 python数据清洗实战入门笔记（一）numpy和pandas

第一章：数据清洗常用工具1.numpy常用数据结构常用清洗工具：numpy常用数据结构：Numpy常用方法数组访问方法练习（jupyter）代码下面是结果2.Numpy常用数据清洗函数数据的排序数据的搜索练习（jupyter）代码下面是结果3.Pandas常用数据结构series和dataframeseriesdataframe常用方法练习（jupyter）代码下面是结果1.numpy常用数据结构常用清洗工具：目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使

2020-05-11 23:03:46 2140 1

原创机器学习笔记（机器学习很难么？？？那必然难啊！！！）

机器学习第一章数据挖掘数据挖掘概念数据挖掘的模式类型第二章机器学习1 机器学习分类2 机器学习中的一些概念训练样本训练分类模型验证第三章无监督学习聚类K-means聚类算法K-means应用DBSCAN聚类算法DBSACN应用降维主成分分析（PCA）方差协方差和协方差矩阵特征向量和特征值算法过程基于聚类的“图像分割”实例编写第四章监督学习1、数据集的划分sklearn数据集介绍API分类和回归数据集返回类型2、sklearn转换器和估计器1.1 转换器1.2 估计器(sklearn机器学习算法的实现)1

2020-05-10 15:19:59 1741

原创 PySpark入门---机器学习实战：建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量（使用ML库）

使用PySpark的机器学习1.创建特征2. 使用字符串索引3.分类算法*1. 贝叶斯分类器**2. 多层感知器分类**3.决策树分类*4.回归模型1.线性模型2. 决策树回归*3. 梯度增强决策树*分类和回归ML库在Spark的帮助下，从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine-le

2020-05-27 12:55:11 1045

原创 python数据清洗实战入门笔记（七）总结

数据清洗总结数据清洗步骤函数大全数据清洗的内容数据清洗总结数据清洗步骤数据获取,使用read_csv或者read_excel数据探索,使用shape,describe或者info函数行列操作，使用loc或者iloc函数数据整合,对不同数据源进行整理数据类型转换，对不同字段数据类型进行转换分组汇总，对数据进行各个维度的计算处理重复值、缺失值和异常值以及数据离散化函数大全merge,concat函数常常用于数据整合pd.to_datetime常常用于日期格式转换str函数用于字符串

2020-05-18 07:49:45 596

原创 python数据清洗实战入门笔记（六）数据预处理

数据清洗之数据预处理1 重复值处理练习2 缺失值处理练习3 异常值处理练习4 数据离散化练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6数据集介绍：摩托车的销售情况数据Condition：摩托车新旧情况（new：新的和used：使用过的）Condition_Desc：对当前状况的描述Price：价格Location：发获地址Model_Year：购买年份Mileage：里程Exterior_Color：车的

2020-05-18 07:44:34 725

原创 python数据清洗实战入门笔记（五）数据统计

数据清洗之数据统计数据分组方法练习1.1在线杂货店订单数据1.2 数据分组运算聚合函数使用练习分组对象与apply函数练习透视图与交叉表练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6数据分组方法• 使用groupby方法进行分组计算，得到分组对象GroupBy• 语法为df.groupby(by=)• 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等

2020-05-17 20:32:17 827

原创 python数据清洗实战入门笔记（四）数据转换

数据清洗之数据转换日期数据格式处理练习字符串数据处理练习高阶函数数据处理练习数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6日期数据格式处理练习import numpy as npimport pandas as pdimport osos.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv',

2020-05-16 11:34:13 610 1

原创 python数据清洗实战入门笔记（三）表处理

数据清洗之数据表处理数据筛选练习数据增加和删除练习数据的修改和查找练习数据整理练习层次化索引练习数据筛选练习import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')df = pd.read_csv('baby_trade_history.csv', encoding='utf-8',dtype={'user_id':str})#数据筛选#

2020-05-15 21:19:43 583

原创 python数据清洗实战入门笔记（二）文件操作

第二章：数据清洗之文件读取csv文件读写excel文件读写数据库文件读写这是一个关于淘宝母婴产品的用户消费行为的数据集，然后基于这个数据集，做数据清洗数据集地址：https://pan.baidu.com/s/1kMH1AhE8RUyaT73rvJsVPQ提取码：aai6csv文件读写import pandas as pdimport numpy as npimport os# 更改文件路劲os.chdir(r'G:\pythonProject\pc\Python数据清洗\data')

2020-05-12 20:22:43 484

原创 pyspark入门---通过kmeans分析出租车数据并调用百度API进行可视化

通过kmeans分析出租车数据并进行可视化（1）数据准备（2）创建dataframe（3）kmeans聚类分析（4）调用百度API进行数据可视化（1）数据准备采用数据为出租车载客时的GPS记录数据集，数据格式为CSV，CSV格式是数据分析中常见的一种数据格式。CSV（Comma-Separated Values）即逗号分隔值，文件以文本的方式存储表格数据（包含数字和文本）。其中每一行代表一条记录，每条记录被逗号分隔为字段，并且每条记录都有同样的字段序列。本实验一共181230条记录，具体文件格式见下表

2020-05-11 22:44:06 3541 8

原创 pyspark入门---机器学习实战预测婴儿出生率（二）使用ML库

原创 pyspark入门---机器学习实战预测婴儿出生率（一）使用MLlib库

原创 python数据清洗实战入门笔记（一）numpy和pandas

原创机器学习笔记（机器学习很难么？？？那必然难啊！！！）

原创 PySpark入门---机器学习实战：建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量（使用ML库）

原创 python数据清洗实战入门笔记（七）总结

原创 python数据清洗实战入门笔记（六）数据预处理

原创 python数据清洗实战入门笔记（五）数据统计

原创 python数据清洗实战入门笔记（四）数据转换

原创 python数据清洗实战入门笔记（三）表处理

原创 python数据清洗实战入门笔记（二）文件操作

原创 pyspark入门---通过kmeans分析出租车数据并调用百度API进行可视化

原创 pyspark入门---通过协同过滤算法推荐电影

原创 pyspark入门---sparksql练习

原创 Opencv从入门到放弃---5.银行卡识别案例（OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v)）

原创 Opencv从入门到放弃---4.直方图与模板匹配（OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v)）

原创 Opencv从入门到放弃---3.图像梯度与轮廓（OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v)）

原创 Opencv从入门到放弃---2.图像处理（OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v)）

原创 Opencv从入门到放弃---1.图像基本操作（OpenCV = open(开源)+ c(ctrl c)+ v(ctrl v)）

原创 pyspark实例化GraphFrame出现 java.lang.ClassNotFoundException: org.graphframes.GraphFramePythonAPI问题

web-Google.txt.gz

空空如也