【数据挖掘 机器学习 】总结1:听徐老师讲课第一集

课程目录:

Knowledge Discovery in Databases(KDD) process and data Preprocessing

decision trees

support vectors machines

bayesian networks

clustering alogorithms

text mining

social network analysis

本集主要讲数据相关的。

1.首先明确几个概念

人工智能  > 机器学习 > 深度学习

'>'这个符号表示包含关系

2.机器学习模型流程

数据预处理: feature extration(提取)/selection(选择)/transformation(转换)                                             evaluation

数据(data)---------------------------------------------------->数据挖掘(data mining)------>模式(pattern)------>知识(knowledge)

3.神经网络:随着层数增加,神经元每层的个数随之减少。起到降低维度的作用。

4.文本的表示方式之TFIDF

Term(word) frequency(TF)

Document frequency(DF,DF表示出现这个词的文档占总文档的比)  ,IDF是Inverse Document frequency的缩写,IDF表示DF的倒数。

TFIDF的计算:TF* log(IDF),其中加上log的原因是IDF通常会很大,加上log缩小大小。

,其中N表示语料库中文本的总数,N(x)表示语料库中包含x的文本总数。

5.推荐书籍:

《Pattern Recognition and Data Mining》, Christopher Bishop;涉及到的数学知识较多,难

《Data mining:Practical Machine Learning tools and Techniques》, Lan H, 适合初学者,易

6.推荐应用

weka 3

下载链接:https://www.neusncp.com/user/file?id=152

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值