![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
走在分布式的路上
要不每周来一篇
展开
-
为什么说扁平胜于嵌套
为什么说扁平胜于嵌套这句话出自《python之禅》转载文章https://blog.csdn.net/gzlaiyonghao/article/details/2151918转载 2019-08-21 22:34:57 · 750 阅读 · 0 评论 -
机器学习之决策树
决策树认识决策树决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法信息的单位:比特bite信息熵和香农定理https://blog.csdn.net/dyx810601/article/details/82226456当得到一些信息时信息熵就减小了信息和消除不确定性是相联系的决策树中把能减少更多的...原创 2019-09-07 14:44:26 · 135 阅读 · 0 评论 -
文本特征提取之TFIDF
TF-IDF是一种加权技术。采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。主要思想:如果某个词或短语在一篇文章中出现的概率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度优点:能过滤掉一些常见的却无关紧要的词语,同时...原创 2019-09-09 13:55:03 · 1106 阅读 · 0 评论 -
机器学习之特征预处理
特征预处理通过特定的统计方法(数学方法)将数据转化成算法要求的数据数值型数据标准缩放:1.归一化2.标准化3.缺失值类别型数据one-hot 编码关于one-hot编码:https://blog.csdn.net/weixin_43170863/article/details/100184168时间类型时间的切分sklearn特征处理APIsklear...原创 2019-09-09 16:21:46 · 441 阅读 · 0 评论