nlp——机器学习(3)

内容真的好多,需要记忆的点也有好多,所以就是需要复盘,现在对概念大致方向比较清晰,就是具体代码实现还是需要进一步的进行训练。

1.主成分分析(PCA):高危数据转换为低维数据,应用在回归分析或聚类分析中
找到一个合适的直线,通过一个矩阵运算得出主成分分析的结果
sklearn.decomposition.PCA(n_components=None)
小数:表示保留百分之多少的信息;证书:减少到多少特征
PCA.fit_transform(X)
X:numpy array 格式的数据[n_samples,n_features]
返回值:转换后指定维度的array

案例:探究用户对物品类别的喜好细分
用户          物品类别
user_id        aisle
1.需要将user_id和aisle放在同一张表中 -->合并
2.找到两者之间的关系 -->交叉表和透视表
3.特征冗余过多 -->PCA降维


分类算法:目标值:类别
1.sklearn转换器和预估器(estimator)
转换器-->特征工程的父类,实例化,调用fit_transform(),【fit()计算每一列的平均值,标准差,transform()进行最终转换】
估计器-->实例一个estimator,estimator.fit(x_train,y_train)计算,调用完毕模型生成
	模型评估:1.直接比对真实值和预测设置 y_predict = estimator.predict(x_test)   y_test == y_predict
		 2.计算准确率,estimator.score(x_test,y_test)

2.KNN算法 (K-近邻算法)
核心思想:根据“邻居”推断你的类别
k = 1 :容易受到异常点的影响
k过大容易分错,样本不均衡的影响
确定邻居:计算距离:距离公式(欧氏距离)(曼哈顿距离:绝对值距离)(明可夫斯基距离)
距离:无量纲化的处理:标准化
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,alogorithm='auto')
n_neighbors: int可选,k_neighbors:查询默认使用的邻居值
优点:简单易于理解易于实现无需训练
缺点:1.k值指定回影响精度;2.测试分类计算量大内存开销大,懒惰算法


3.模型选择与调优
交叉验证(cross validation):将训练数据分为训练和验证集,取模型平均值作为最终结果。
超参数搜索--网格搜索(Grid Search):
sklearn.model_selection.GridSearchCV(estimator,param_grid=None,cv=None)
对估计器的指定参数进行详尽搜索
estimator:估计器对象
param_grid:估计器参数(dict)
cv:指定几折交叉验证
fit():输入训练数据
score():准确率
结果分析:best_params_   best_score_    best_estimator_    cv_results_

案例:预测facebook签到位置,使用jupyter书写,数据量大
流程分析:1.获取数据;
	 2.数据处理:目的:特征值x,目标值y
	 a,缩小数据范围:2<x<2.5,1.0<y<1.5;b,time -->年月日时分秒
	 c,过滤签到次数少的地点
	 3.特征工程:标准化
	 4.knn算法预估流程
	 5.模型选择与调优
	 6.模型评估


4.朴素贝叶斯算法:朴素+贝叶斯。
朴素:假设,特征与特征之间是相互独立的。
概率基础:联合概率,条件概率,相互独立(联合概率=单独概率乘积)
贝叶斯公式!!!
应用场景:文本分类

朴素贝叶斯分类:
拉普拉斯平滑系数(alpha):防止计算出的分类概率为0 
sklearn.naive_bayes.MultinomialNB(alpha=1.0)

优点:对缺失数据不太敏感,算法简单,分类准确度高,速度快
缺点:如果特征属性有关联时效果不好


5.决策树:来源if-else结构(没有免费的午餐)(数据量大)(可以可视化)
特征的先后顺序,高效进行决策
原理:信息熵,信息增益(信息论基础)
信息:(香农)消除随机不定性的东西
信息的衡量 -->信息量 -->信息熵
决策树的划分依据之一 --->信息增益:得知特征X的信息的不确定性减少的程度使得类Y的信息熵减少的程度
决策树分类器:
class sklearn.tree.DecisionTreeClassifier(criterion='gini',max_depth=None,random_state=None)
criterion:默认是'gini'系数,也可以选择信息增益的熵'entropy'
max_depth:树的深度大小
random_state:随机数种子

决策树可视化:sklearn.tree.export_graphviz()导出DOT格式
tree.export_graphviz(estimator,out_file='tree.dot',feature_names=['',''])
(导出后进入网站:http://webgraphviz.com/ 进行可视化)

优点:可视化,可解释能力强
缺点:容易过拟合,不能推广数据的过于复杂的树,改进:减枝cart算法,随机森林
from sklearn.decomposition import PCA


def pca_demo():
    # PCA降维
    data = [[2,8,4,5],[6,3,0,8],[5,4,9,1]]
    tran = PCA(n_components=2)  # 降到2维
    data_new = tran.fit_transform(data)
    print('data_new:\n',data_new)

    return None


if __name__ == '__main__':
    pca_demo()


import pandas as pd
from sklearn.decomposition import PCA


# 数据集比较大运行时间会比较长
def demo():
    # 1.获取数据
    order_products = pd.read_csv('order_products__prior.csv')
    products = pd.read_csv('products.csv')
    orders = pd.read_csv('orders.csv')
    aisles = pd.read_csv('aisles.csv')
    # 2.合并表
    tab1 = pd.merge(aisles,products,on=['aisle_id','aisle_id'])
    tab2 = pd.merge(tab1,order_products,on=['product_id','product_id'])
    tab3 = pd.merge(tab2,orders,on=['order_id','order_id'])
    # 3.找到user_id和aisle之间的关系
    table = pd.crosstab(tab3['user_id'],tab3['aisle'])
    # print('table:\n',table)
    # 4.PCA降维
    tran = PCA(n_components=0.95)
    data_new = tran.fit_transform(table)
    print('data_new\n',data_new.shape)


if __name__ == '__main__':
    demo()

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV


def knn_iris():
    # 1.获取数据
    iris = load_iris()
    # 2.数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=6)
    # 3.特征工程:标准化
    tran = StandardScaler()
    x_train = tran.fit_transform(x_train)
    x_test = tran.transform(x_test)
    # 4.KNN预估器流程
    estimator = KNeighborsClassifier(n_neighbors=3)
    estimator.fit(x_train,y_train)

    # 5.模型评估
    # 1.直接比对真实值和与测试
    y_predict = estimator.predict(x_test)
    print('y_predict:\n',y_predict)
    print('直接比对\n',y_test == y_predict)
    # 2.计算准确率
    score = estimator.score(x_test,y_test)
    print('score:\n',score)
    return None


def knn_iris_gscv():
    # 添加网格搜索和交叉验证
    # 1.获取数据
    iris = load_iris()
    # 2.数据集划分
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=6)
    # 3.特征工程:标准化
    tran = StandardScaler()
    x_train = tran.fit_transform(x_train)
    x_test = tran.transform(x_test)
    # 4.KNN预估器流程
    estimator = KNeighborsClassifier()

    # 加入网格搜索和交叉验证
    param_dict = {'n_neighbors':[1,3,5,7,9,11]}
    estimator = GridSearchCV(estimator,param_grid=param_dict,cv=10)
    estimator.fit(x_train,y_train)

    # 5.模型评估
    # 1.直接比对真实值和与测试
    y_predict = estimator.predict(x_test)
    print('y_predict:\n',y_predict)
    print('直接比对\n',y_test == y_predict)
    # 2.计算准确率
    score = estimator.score(x_test,y_test)
    print('score:\n',score)

    print('最佳参数\n',estimator.best_params_)
    print('最佳结果\n',estimator.best_score_)
    print('最佳估计器\n',estimator.best_estimator_)
    print('交叉验证结果\n',estimator.cv_results_)

    return None


if __name__ == '__main__':
    # knn_iris()
    knn_iris_gscv()


# facebook 案例使用jupyter输入,因为没有安装就写在这里了
from sklearn.model_selection import  train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV
import pandas as pd


data = pd.read_csv('train1.csv')
# 缩小数据范围
data = data.query('x < 2.5 & x > 2 & y < 1.5 & y > 1.0')
# print('data\n',data)
# 处理时间特征
time_value = pd.to_datetime(data['time'],unit='s')
date = pd.DatetimeIndex(time_value)
data['day'] = date.day
data['weekday'] = date.weekday
data['hour'] = date.hour
data.head()
# print('data',data)
# 过滤掉次数少的地点
place_count = data.groupby('place_id').count()['row_id']
place_count[place_count > 3].head()
data_final = data[data["place_id"].isin(place_count[place_count>3].index.values)]
data_final.head()
# 筛选特征值和目标值
x = data_final['x','y','accuracy','day','weekday','hour']
y = data_final['place_id']
# 数据集划分
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=6)
# 3.特征工程:标准化
tran = StandardScaler()
x_train = tran.fit_transform(x_train)
x_test = tran.transform(x_test)
# 4.KNN预估器流程
estimator = KNeighborsClassifier()

# 加入网格搜索和交叉验证
param_dict = {'n_neighbors':[3,5,7,9]}
estimator = GridSearchCV(estimator,param_grid=param_dict,cv=10)
estimator.fit(x_train,y_train)

# 5.模型评估
# 1.直接比对真实值和与测试
y_predict = estimator.predict(x_test)
print('y_predict:\n',y_predict)
print('直接比对\n',y_test == y_predict)
# 2.计算准确率
score = estimator.score(x_test,y_test)
print('score:\n',score)

print('最佳参数\n',estimator.best_params_)
print('最佳结果\n',estimator.best_score_)
print('最佳估计器\n',estimator.best_estimator_)
print('交叉验证结果\n',estimator.cv_results_)

from sklearn.datasets import fetch_20newsgroups
from sklearn.model_selection import  train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier,export_graphviz


def nb_news():
    # 朴素贝叶斯
    # 1.获取数据
    news = fetch_20newsgroups(subset='all')

    # 2.划分数据集
    x_train,x_test,y_train,y_test = train_test_split(news.data,news.target)

    # 3.特征工程,文本特征抽取 tfidf
    tran = TfidfVectorizer()
    x_train = tran.fit_transform(x_train)
    x_test = tran.transform(x_test)

    # 4.朴素贝叶斯预估器流程
    estimator = MultinomialNB()
    estimator.fit(x_train,y_train)

    # 5.模型评估
    # 1.直接比对真实值和与测试
    y_predict = estimator.predict(x_test)
    print('y_predict:\n', y_predict)
    print('直接比对\n', y_test == y_predict)
    # 2.计算准确率
    score = estimator.score(x_test, y_test)
    print('score:\n', score)
    return None


def tree_iris():
    # 决策树对鸢尾花进行分类
    # 1.获取数据集
    iris = load_iris()

    # 2.划分数据集
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state=22)

    # 3.决策树预估器
    estimator = DecisionTreeClassifier(criterion='entropy')
    estimator.fit(x_train,y_train)

    # 4.模型评估
    # 方法1:
    y_predict = estimator.predict(x_test)
    print('y_predict:\n',y_predict)
    print('真实值和预测值对比',y_predict == y_test)

    # 方法2:
    score = estimator.score(x_test,y_test)
    print('准确率是\n',score)

    # 可视化决策树
    export_graphviz(estimator,out_file='iris_tree.dot',feature_names=iris.feature_name)

    return None


if __name__ == '__main__':
    # nb_news()
    tree_iris()

所用到的数据集是:

http://链接:https://pan.baidu.com/s/1jxkep6SquIgt8J1VN4OoHQ 提取码:pyb6

一共有三个数据集。
 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 阿里云天池大赛是一个非常有名的数据科学竞赛平台,其中机器学习竞赛是其中的一个重要组成部分。在这个竞赛中,参赛者需要使用机器学习算法来解决各种各样的问题,例如图像识别、自然语言处理、推荐系统等等。 机器学习竞赛的解题过程通常包括以下几个步骤: 1. 数据预处理:参赛者需要对提供的数据进行清洗、特征提取、数据转换等操作,以便于后续的建模和训练。 2. 模型选择:参赛者需要选择适合当前问题的机器学习算法,并对其进行调参和优化。 3. 模型训练:参赛者需要使用训练数据对模型进行训练,并对训练过程进行监控和调整。 4. 模型评估:参赛者需要使用测试数据对模型进行评估,以确定其在实际应用中的性能表现。 5. 结果提交:参赛者需要将最终的模型结果提交到竞赛平台上进行评估和排名。 在机器学习竞赛中,成功的关键在于对问题的深入理解和对机器学习算法的熟练掌握。同时,参赛者还需要具备良好的团队合作能力和沟通能力,以便于在竞赛中取得更好的成绩。 ### 回答2: 阿里云天池大赛是一个非常受欢迎的机器学习竞赛平台,它汇集了大量来自世界各地的数据科学家,分享了一系列有趣的竞赛和可用的数据集,供参赛选手使用。机器学习篇中,我们将解析一些常见的阿里云天池大赛题目,让大家对机器学习竞赛有更深入的了解。 一、赛题选取 阿里云天池大赛的赛题通常与商业、医疗等复杂领域相关,选择数据集时要了解行业背景和数据质量,以准确地判断模型的准确性和适用性。此外,在选择赛题时,还要考虑与参赛选手一起合作的可能性,以及他们可能使用的算法和技术。因此,为了成功解决赛题,参赛者应当仔细研究题目的背景、数据、分析目标等内容,有助于更好地理解问题及其解决方案。 二、数据清洗 参赛者在使用数据时,需要对其进行实质性的预处理和清洗工作,以减少不准确的数据对结果的影响。预处理和清洗包括基本的数据处理,例如缺失值、异常值和重复值的处理,还需要利用可视化和探索性数据分析等技术来检查数据的分布情况、相互关系和异常值等问题。 三、特征选择 在构建模型之前,参赛选手必须确定哪些特征会对问题的解决产生实际影响。这个过程称为特征选择,它旨在通过保留最相关的特征来减少模型复杂性,提高准确性,并且还有助于减少数据集的维数。特征选择包括基于统计学和机器学习的算法,同时应该考虑特征的相关性和重要性。 四、建模和评估 参赛者在解决问题时,需要考虑使用何种算法,以及如何构建对应的模型。此外,还需在不同的算法和模型之间进行比较,并选择最优模型。最后,应该针对模型进行评估,以确保各种重要性能指标(例如准确性,召回率,精确度等)都得到最佳表现。 总的来说,机器学习是一种复杂而令人兴奋的技术,参赛者要考虑数据质量、数据清洗、特征选择、建模和评估等诸多因素。通过参加阿里云天池大赛,大家可以不断学习和练习,不仅提升自己的技能,同时还有机会获得丰厚的奖励。 ### 回答3: 阿里云天池大赛是一个集数据竞赛、人才选拔、行业交流、技术分享、产学研合作等多种功能于一体的大型平台。其中,机器学习篇的赛题挑战包括了各种典型机器学习场景,旨在挖掘数据中价值,提高数据应用和解决实际问题的能力。 在机器学习篇的赛题中,常见的任务包括分类、回归、聚类、推荐等,其中分类问题是最常见的任务之一。分类可以分为二分类、多分类、超大规模分类等多个子类型。对于分类问题,大家需要学习分类算法,如KNN、NB、SVM、LR、GBDT、XGBoost等,并熟悉如何调参等技巧。 回归问题主要是根据给定的样本数据,预测一个连续的数值。回归问题旨在找到独立变量(X)和连续依赖变量(Y)之间的关系,以便使用该模型来预测连续依赖变量的值。对于回归问题,大家需要掌握线性回归、岭回归、Lasso回归、ElasticNet回归等算法。 聚类问题是将相似的数据划分到同一类别中,相似度较高,不同类别之间相似度较低。对于聚类问题,大家需要学习如何使用K-means、DBSCAN、Hierarchical聚类算法。 推荐问题是根据用户的行为习惯,预测用户的需求,以便将相应的内容推荐给用户。推荐问题的数据通常包括用户的行为、物品的属性和用户的评分。推荐问题常用的算法包括CF、ALS、LFM等。除此之外,还有深度学习在图像识别、语音识别、自然语言处理、推荐、游戏AI等方面具有广泛的应用,如CNN、RNN、LSTM、GAN等。 总之,机器学习篇的赛题挑战涉及到各种典型机器学习算法和应用场景,需要大家掌握基础理论和实践技巧,并多参加实战项目和比赛练习,不断提升自己的能力和水平。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值