python中分类常用的方法

本文介绍了Python中几种常见的分类算法,包括线性逻辑分类、朴素贝叶斯、随机森林、支持向量机(SVM)和KNN。通过具体代码示例展示了如何使用sklearn库实现这些算法,同时探讨了各种算法的应用场景和核心思想。
摘要由CSDN通过智能技术生成

分类是数据处理常用的方法,今天介绍python中种常用的数据分析方法

1、线性逻辑分类

  逻辑分类分为二元分类和多元分类

  函数:y = 1 / (1 + e^-z)       其中 z = k1x1 + k2x2 + b

  交叉熵误差:J(k1,k2,b) = sigma(-ylog(y') - (1-y)log(1-y')) / m + 正则函数 * 正则强度(目的是防止过拟合,提高模型泛化性能)

  python方法:sklearn.linear_model.LogisticRegression(solver='liblinear', c=正则强度)

  二元分类示例:

import numpy as np
import matplotlib.pyplot as mp
import sklearn.linear_model as lm

x = np.array([
    [3, 1],
    [2, 5],
    [1, 8],
    [6, 4],
    [5, 2],
    [3, 5],
    [4, 7],
    [4, -1]
])
y = np.array([0, 1, 1, 0, 0, 1, 1, 0])
model = lm.LogisticRegression(solver='liblinear', C=1)
model.fit(x, y)
l, r, h = x[:, 0].min() - 1, x[:, 0].max() + 1, 0.05
b, t, v = x[:, 1].min() - 1, x[:, 1].max() + 1, 0.05
grid_x = np.meshgrid(np.arange(l, r, h), np.arange(b, t, v))
flat_x = np.c_[grid_x[0].ravel(), grid_x[1].ravel()]
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)

mp.figure('Logistic Classification', facecolor='lightgray')
mp.title('Logistic Classification', fontsize=12)
mp.xlabel('x', fontsize=12)
mp.ylabel('y', fontsize=12)
mp.tick_params(labelsize=10)
# 根据颜色画图
mp.pcolormesh(grid_x[0], grid_x[1], grid_y, cmap='gray')
mp.scatter(x[:, 0], x[:, 1], c=y, cmap='brg', s=60)
mp.show()

  结果:

     

  多元分类示例:

import numpy as np
import matplotlib.pyplot as mp
import sklearn.linear_model as lm

x = np.array([
    [4, 7],
    [3.5, 8],
    [3.1, 6.2],
    [0.5, 1],
    [1, 2],
    [1.2, 1.9],
    [6, 2],
    [5.7, 1.5],
    [5.4, 2.2]
])
y = np.array([0, 0, 0, 1, 1, 1, 2, 2, 2])
model = lm.LogisticRegression(solver='liblinear', C=100)
model.fit(x, y)
l, r, h = x[:, 0].min() - 1, x[:, 0].max() + 1, 0.05
b, t, v = x[:, 1].min() - 1, x[:, 1].max() + 1, 0.05
grid_x = np.meshgrid(np.arang
  • 3
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python,BBC分类可以使用以下步骤进行: 1. 导入必要的库和模块: ```python import nltk from nltk.corpus import reuters from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from sklearn.model_selection import train_test_split from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import classification_report ``` 2. 加载BBC数据集: ```python bbc_documents = [] for category in reuters.categories(): if category.startswith('bbc'): bbc_documents += reuters.fileids(category) ``` 3. 定义停用词和分词器: ```python stop_words = set(stopwords.words("english")) tokenizer = nltk.RegexpTokenizer(r"\w+") ``` 4. 对BBC数据集进行文本预处理: ```python bbc_corpus = [] bbc_labels = [] for document in bbc_documents: text = reuters.raw(document) text = text.lower() # 转换为小写 text_tokens = tokenizer.tokenize(text) # 分词 text_tokens = [token for token in text_tokens if token not in stop_words] # 去除停用词 text = " ".join(text_tokens) bbc_corpus.append(text) bbc_labels.append(reuters.categories(document)[0]) ``` 5. 将BBC数据集划分为训练集和测试集: ```python X_train, X_test, y_train, y_test = train_test_split(bbc_corpus, bbc_labels, test_size=0.2, random_state=42) ``` 6. 将文本转换为TF-IDF特征向量: ```python vectorizer = TfidfVectorizer() X_train_tfidf = vectorizer.fit_transform(X_train) X_test_tfidf = vectorizer.transform(X_test) ``` 7. 训练朴素贝叶斯分类器: ```python classifier = MultinomialNB() classifier.fit(X_train_tfidf, y_train) ``` 8. 对测试集进行预测和评估: ```python y_pred = classifier.predict(X_test_tfidf) print(classification_report(y_test, y_pred)) ``` 以上就是在Python使用朴素贝叶斯分类器对BBC数据集进行分类的步骤。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值