计算机学报
计算机软件学报
ccf期刊
先看综述类论文,再决定方向
文本挖掘的一般处理过程:
文档集—特征的建立—特征集的缩减----学习与知识模式的提取----模式质量的评价-----知识模式
文本挖掘是对一个非结构化文本信息进行分析从而获取用户关心或感兴趣,有钱仔使用价值知识的过程。它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂的领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术。
文本挖掘一般处理过程,着力于文本分类和文本聚类的一般过程
文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测。
文本分类:主要分为文本训练、文本分类
文本聚类:一种典型无教师的机器学习问题。主要的文本聚类方法包括以BIRCH算法为代表的层次化聚类算法和以K-means算法为代表的划分式聚类算法。
结构化数据:结构化的数据是指可以使用关系型数据表示和存储,表现为二维形式的数据。
半结构化数据:结构化的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分割予以元素以及记录和字段进行分层,
非结构化数据:顾名思义,就是没有固定结构的数据。各种文档、图片、视频、音频都属于非结构化数据。
基础类(侧重基本概念的理解及应用):
概率论与数理统计:常用分布及其特性、假设检验?
线性代数:常见运算、分解、特征值、特征向量、秩等?
信息论:熵、互信息等、?
优化:凸优化、梯度下降、牛顿法等
Convex Optimization:工具书,涉及到最优化的可以查。?
?
?
专业类(结合兴趣挑着看,偏基础看1,2;概率图模型,看3;因果看4,5,6,相对推荐6;深度学习看8,9):
机器学习:http://item.jd.com/10131321.html, 很经典,很多知识也很老了,作为入门挺好。?
数据挖掘概念与技术:http://item.jd.com/11056660.html,很经典、很全面,但是内容很杂,可以当作工具书,建议找感兴趣的部分看,。?
Probabilistic Graphical Models Principles and Techniques:概率图模型巨著,作者很牛内容很新。?
Causation, Prediction, and Search: 因果关系方向,很专业,也有点老了。?
Causality -Models, Reasoning, and Inference: 图灵奖得主大作,不过有点晦涩,好几位同学都败下阵了,有兴趣的读。?
Elements of Causal Inference, 因果最新的一些总结,可以认为是一些经典论文集,相对推荐?
云计算相关:太多相关推荐,建议先从“Google MapReduce/GFS/BigTable三大技术的论文中译版” 开始,其实现在这些已经也落后了,但是基本思想很多很像。
?
deep learning:https://github.com/daviddao/deep-learning-book, 书在这里,可以尝试使用tensorflow,pytorch,?
强化学习:Reinforcement Learning.pdf?
深度学习还推荐andrew ng等人的系列课程?
?
?
工具类:
MATLAB,随便找个看,理论研究同学的重要工具?
Python,Java,C++,R,根据研究问题的需要进行选择和学习。?
?
?
推荐视频:
Courser上的Machine learning(Andrew Ng),https://www.coursera.org/course/ml
?
?
coursera probabilistic graphical models?https://www.coursera.org/course/pgm