数据科学导论
平时分50分 有4个实验 两个人一组
爬虫、实体融合、twitter、MapReduce
3道题
- 简答:各种距离
- 设计:MapReduce
- 算法:PersonalRank
如果是非数据科学方向的同学,一定慎重,复习就像开天辟地。我们本学期是计算机网络考完后隔一天考数据科学导论,时间比较紧,大致整理如下。具体内容我有上传word资源。
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/b5094942ec3c572427cdd09e8fb24fd8.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/2f51617a78572b03f5d946a2a13bc0bd.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/9baae2b323b9c0d6a5ac826df7d33875.png)
![在这里插入图片描述](https://i-blog.csdnimg.cn/blog_migrate/5c96d833361aa9906b9ff9c3f2ffbf62.png)
- 大数据
- 云计算
- 文本分析
- 文本特征提取
- 输入单词、id,输出词袋向量
- 理解词袋的表示方式,优缺点
- 输入句子,给出N-Gram表示
- 数据科学有什么难点
- 数据科学解决问题的步骤
- 数据质量如何评估
- 数据质量