- 博客(6)
- 收藏
- 关注
原创 文本分类机器学习算法摘记
一、 KMeans的优劣优点: 1.是解决聚类问题的一种经典算法,简单、快速 2.对处理大数据集,该算法保持可伸缩性和高效率 3.当结果簇是密集的,它的效果较好缺点 1.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 2.对躁声和孤立点数据敏感二、召回率召回率是指检索出的 相关文档数 和 文档...
2019-12-26 17:44:47 356
原创 SQL:查询每科目前三名学生及分数
一、创建得分表-- 创建student_score表CREATE TABLE student_score( name varchar(20), subject varchar(20), score int);二、插入数据-- 插入数据INSERT INTO student_score(name, subject, score)VALUES ('张三...
2019-12-19 14:34:55 4686
原创 国内开源项目镜像服务
一、北京理工大学:http://mirror.bit.edu.cnhttp://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz
2019-12-12 11:14:22 228
原创 机器学习竞赛汇总
一、竞赛|数据竞赛Top解决方案开源整理https://mp.weixin.qq.com/s/_4QG0dWhh784lF0n1wymcw二、复盘所有NLP比赛的TOP方案https://github.com/zhpmatrix/nlp-competitions-list-review三、CDCS 中国数据竞赛优胜解集锦https://github.com/geek...
2019-12-05 15:21:53 1606 1
原创 GitHub:大数据生态架构【源码解读】汇总(按照GitHub的star排倒序)
一、Spark源码系列1、酷玩 Spark: Spark 源代码解析、Spark 类库等https://github.com/lw-lin/CoolplaySpark2、Spark源码剖析https://github.com/weibin0516/spark-sourcecodes-analysis3、spark ml 算法原理剖析以及具体的源码实现分析https:...
2019-12-05 15:02:59 495
原创 GItHub:【大数据实战项目】汇总
一、Spark1、《Spark 大型电商项目实战》* 用户访问session分析* 页面单跳转化率统计* 热门商品离线统计博客地址:http://blog.csdn.net/u012318074/article/category/6744423GitHub地址:https://github.com/Erik-ly/SprakProject2、基于spark stream...
2019-12-05 14:18:27 5153
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人