机器学习
文章平均质量分 50
阔尼叽哇憨批嘎哒
这个作者很懒,什么都没留下…
展开
-
决策树的导出与保存
决策树的导出与保存 ##用sklearn.tree.export_graphviz()该函数能够导出DOT格式 tree.export_graphviz(estimator,out_file=‘tree.dot’,feature_name=[","]) 其中:estimator参数为估计器,out_file参数为导出路径参数,feature_name为特征名字 ##用graphviz可以将dot格式文件转换成png或者jpg格式文件 可用pip来安装,命令:“pip install graphviz” 然后原创 2021-02-28 11:44:45 · 2071 阅读 · 0 评论 -
数据的特征处理
#实例代码 from sklearn.preprocessing import StandardScaler def stand(): ''' 标准化缩放 :return: ''' std = StandardScaler() data = std.fit_transform([[1.,-1.,3.],[2.,4.,2.],[4.,6.,-1.]]) print(data) re...原创 2021-01-08 02:21:58 · 132 阅读 · 0 评论 -
tf_idf分析
Tf:term frequency:词的频率 出现的次数 idf:逆文档频率inverse document frequency log(总文档数量/该次出现的文档数) from sklearn.feature_extraction.text import TfidfVectorizer import jieba str1= "今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。" str2 = "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我原创 2021-01-07 23:24:49 · 272 阅读 · 0 评论 -
jieba分词
jieba分词的入门应用 接上次对文本数据进行特征化,由于我上次用的是英文数据,英文句子单词与单词之间自带空格,所以 fit_transform(a)函数可以识别到一个个单词并将其提取为一个特征词存放在为列表里的一个字符串元素 英文文本数据 from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer def countvec(): """ 对文本进行特征值化 :return: None原创 2021-01-07 22:42:57 · 1127 阅读 · 0 评论 -
sklearn特征抽取API
Sklearn特征抽取API 特征抽取对文本等数据进行特征值化 Sklearn:对于特征处理提供了强大的接口 特征工程:把拿到的数据集里的那些字符串、汉字等无法被用于直接运算的数据转化成可运算的数字。 特征工程的意义:直接影响预测结果 需要用到的类:sklearn.feature_extraction 字典特征抽取 作用:对字典数据进行特征值化 # 特征抽取 # # 导入包 # from sklearn.feature_extraction.text import CountVectorizer原创 2021-01-07 02:02:02 · 231 阅读 · 0 评论