自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 文本分类机器学习算法摘记

一、 KMeans的优劣优点: 1.是解决聚类问题的一种经典算法,简单、快速 2.对处理大数据集,该算法保持可伸缩性和高效率 3.当结果簇是密集的,它的效果较好缺点 1.必须事先给出k(要生成的簇的数目),而且对初值敏感,对于不同的初始值,可能会导致不同结果。 2.对躁声和孤立点数据敏感二、召回率召回率是指检索出的 相关文档数 和 文档...

2019-12-26 17:44:47 355

原创 SQL:查询每科目前三名学生及分数

一、创建得分表-- 创建student_score表CREATE TABLE student_score( name varchar(20), subject varchar(20), score int);二、插入数据-- 插入数据INSERT INTO student_score(name, subject, score)VALUES ('张三...

2019-12-19 14:34:55 4686

原创 国内开源项目镜像服务

一、北京理工大学:http://mirror.bit.edu.cnhttp://mirror.bit.edu.cn/apache/sqoop/1.99.7/sqoop-1.99.7-bin-hadoop200.tar.gz

2019-12-12 11:14:22 228

原创 机器学习竞赛汇总

一、竞赛|数据竞赛Top解决方案开源整理https://mp.weixin.qq.com/s/_4QG0dWhh784lF0n1wymcw二、复盘所有NLP比赛的TOP方案https://github.com/zhpmatrix/nlp-competitions-list-review三、CDCS 中国数据竞赛优胜解集锦https://github.com/geek...

2019-12-05 15:21:53 1606 1

原创 GitHub:大数据生态架构【源码解读】汇总(按照GitHub的star排倒序)

一、Spark源码系列1、酷玩 Spark: Spark 源代码解析、Spark 类库等https://github.com/lw-lin/CoolplaySpark2、Spark源码剖析https://github.com/weibin0516/spark-sourcecodes-analysis3、spark ml 算法原理剖析以及具体的源码实现分析https:...

2019-12-05 15:02:59 495

原创 GItHub:【大数据实战项目】汇总

一、Spark1、《Spark 大型电商项目实战》* 用户访问session分析* 页面单跳转化率统计* 热门商品离线统计博客地址:http://blog.csdn.net/u012318074/article/category/6744423GitHub地址:https://github.com/Erik-ly/SprakProject2、基于spark stream...

2019-12-05 14:18:27 5145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除