课程目录:
Knowledge Discovery in Databases(KDD) process and data Preprocessing
decision trees
support vectors machines
bayesian networks
clustering alogorithms
text mining
social network analysis
本集主要讲数据相关的。
1.首先明确几个概念
人工智能 > 机器学习 > 深度学习
'>'这个符号表示包含关系
2.机器学习模型流程
数据预处理: feature extration(提取)/selection(选择)/transformation(转换) evaluation
数据(data)---------------------------------------------------->数据挖掘(data mining)------>模式(pattern)------>知识(knowledge)
3.神经网络:随着层数增加,神经元每层的个数随之减少。起到降低维度的作用。
4.文本的表示方式之TFIDF
Term(word) frequency(TF)
Document frequency(DF,DF表示出现这个词的文档占总文档的比) ,IDF是Inverse Document frequency的缩写,IDF表示DF的倒数。
TFIDF的计算:TF* log(IDF),其中加上log的原因是IDF通常会很大,加上log缩小大小。
,其中N表示语料库中文本的总数,N(x)表示语料库中包含x的文本总数。
5.推荐书籍:
《Pattern Recognition and Data Mining》, Christopher Bishop;涉及到的数学知识较多,难
《Data mining:Practical Machine Learning tools and Techniques》, Lan H, 适合初学者,易
6.推荐应用
weka 3
下载链接:https://www.neusncp.com/user/file?id=152