![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 50
python完成
酒心薄荷
If you have found any mistake i made,you can communicate with me or leave your advice in comment area.I would like to use more english to improve my oral english evels.If you could give me some suggestions in my english express ,that’s couldn’t be better and I will glad to accept your opinion.
展开
-
机器学习 新闻文本分类 task1
文本分类技术的重点是解决文本分类中的噪音数据消除问题,可采用并行化噪音特征消除算法,改进的主成分分析方法和TF-IDF方法。1、TF-IDFTF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。举例:例1有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频原创 2021-06-06 16:37:19 · 394 阅读 · 0 评论 -
决策树代码实践
这是一组贷款申请样本数据表:1、编写代码计算经验熵:在编写代码之前,我们先对数据集进行属性标注。年龄:0代表青年,1代表中年,2代表老年;有工作:0代表否,1代表是;有自己的房子:0代表否,1代表是;信贷情况:0代表一般,1代表好,2代表非常好;类别(是否给贷款):no代表否,yes代表是。确定这些之后,我们就可以创建数据集,并计算经验熵了,代码编写如下:原文链接:https://blog.csdn.net/c406495762/article/details/75663451..原创 2021-04-04 20:57:11 · 257 阅读 · 3 评论 -
决策树基础概念的简单理解
首先来看一个数据集datafeaturered applered,round,leaf,50kggreen applegreen,round,no leaf,60kgbananayellow,curved,no leaf,60kgbananagreen,curved,no leaf,75kg数据的特征是我们可以向数据提出的问题,在训练时,基于特征拟合一个可以区分苹果和香蕉的模型,模型可以根据特征对新的数据分类。在这组数据中,feature就是每一行中对原创 2021-04-04 09:14:26 · 145 阅读 · 0 评论 -
sklearn.model_selection中的train_test_split()函数
train_model_split()是sklearn.model_selection中的分离器函数,用于将数组或矩阵划分为训练集和测试集。函数样式为:x_train,x_test,y_train,y_test(train_data,train_target,test_size,random_state,shuffle)参数解释:train_data:待划分的样本数据train_target:待划分的对应样本数据的样本标签test_size:1)浮点数,在0 ~ 1之间,表示样本占比(test转载 2021-04-02 19:53:40 · 756 阅读 · 0 评论 -
机器学习之加载查看数据集
sklearn datasets模块一、导入数据集sklearn.datasets模块主要提供了一些导入、在线下载及本地生成数据集的方法。主要有三种形式:datasets.load_()、datasets.fetch_()及datasets.make_*()的方法。*为数据集名称① datasets.load_dataset_name():sklearn包自带的小数据集②datasets.fetch_dataset_name():比较大的数据集,主要用于测试解决实际问题,支持在线下载③datas原创 2021-04-01 20:02:03 · 1795 阅读 · 0 评论