pyspark之LogisticRegression算法

本文深入探讨了如何在PySpark中使用LogisticRegression算法进行数据分析和预测。通过实例,详细解释了模型构建、参数调整及结果评估的过程,为理解和应用Logistic Regression提供了实用指南。
摘要由CSDN通过智能技术生成
import sys
import time
import pandas as pd
import matplotlib.pyplot as plt
from pyspark import SparkConf,SparkContext
from pyspark.mllib.classification import LogisticRegressionWithSGD
from pyspark.mllib.regression import LabeledPoint
import numpy as np
from pyspark.mllib.evaluation import BinaryClassificationMetrics
from pyspark.mllib.feature import StandardScaler

def extract_features(fleld,catedoriesMap,featureEnd):
    categoryidx = catedoriesMap[fleld[3]]
    categoryfeatures = np.zeros(len(catedoriesMap))
    categoryfeatures[categoryidx] = 1
    numericalFeatures=[convert_float(fleld) for fleld in fleld[4:featureEnd]]
    return np.concatenate((categoryfeatures,numericalFeatures))

def extract_label(field):
    label = field[-1]
    return float(label)
def convert_float(x):
    return (0 if x=="?" else float(x))

global Path
if sc.master[0:5]=='local':
    Path='file:/home/swt/pythonwork/PythonProject/'
else:
    Path="hdfs://localhost:9000/user/swt/"

# def prepare_data(sc):
print('load data...')
rawDataWithHeader = sc.textFile(Path+'data/train.tsv')
header = rawDataWithHeader.first()
rawData = rawDataWithHeader.filter(lambda x:x != header)
rData = rawData.map(lambda x:x.replace("\"",""))
lines = rData.map(lambda x:x.split("\t"))
print("is "+str(lines.count<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Logistic regression算法是一种用于解决二分类问题的监督学习算法。它是基于线性回归模型的一种变体,通过使用logistic方程将线性回归的输出归一化到[0,1]的范围内,从而将其转化为概率形式。 最基本的学习算法是最大似然方法。最大似然估计是一种统计学方法,通过最大化给定观测数据的似然函数来估计模型的参数。在logistic regression中,最大似然估计用于寻找最优的参数值,使得给定观测数据的似然函数最大化。 Logistic regression算法可以被认为是一种正统的机器学习算法,它遵循了机器学习算法的一般步骤。首先,需要确定一个合适的模型,这里选择了logistic回归模型。然后,使用最大似然估计方法来估计模型的参数。接下来,利用训练数据对模型进行训练,即找到使得损失函数最小化的参数值。最后,使用训练好的模型对新的未知样本进行预测。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)](https://blog.csdn.net/iteye_12028/article/details/82570835)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值