- 博客(6)
- 收藏
- 关注
原创 Kaggle - Titanic 生存预测
第一次参加Kaggle,以Titanic来入个门。本次竞赛的目的是根据Titanic的人员信息来预测最终的生存情况。采用Python3来完成本次竞赛。一、数据总览从Kaggle平台我们了解到,Training set一共有891条记录,Test set一共有418条记录。提供的相关变量有:Variable Definition Key survival Survi...
2018-08-24 15:00:18 602
原创 慕课 Python开发简单爬虫之抓取百度百科1000个词条页面数据
最近学习了慕课上关于用Python开发简单爬虫的课程,并根据课程在本地实现了抓取百度百科1000个词条页面数据。课程地址为:https://www.imooc.com/learn/563目标:以Python百度百科网页为入口,爬取1000个相关的百度百科页面的title和简介,并以html格式output出来实现方法:模块 功能 spider_main.py 为...
2018-07-19 18:48:37 413
原创 大数据技术原理与应用 第四章 分布式数据库HBase
厦门大学林子雨老师课程 —— 大数据技术原理与应用 学习笔记参考资料:http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson0https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-bigdata-hbase/index.html1. HBase与HDFS、MapRed...
2018-07-06 11:09:19 2718
原创 大数据技术原理与应用 第三章 分布式文件系统HDFS
厦门大学林子雨老师课程 —— 大数据技术原理与应用 学习笔记参考资料:http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson0https://hadoop.apache.org/docs/r1.0.4/cn/hdfs_design.html1. Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity har...
2018-07-05 18:29:27 1512
原创 大数据技术原理与应用 第二章 大数据处理架构Hadoop
厦门大学林子雨老师课程 —— 大数据技术原理与应用 学习笔记参考资料:http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson01. Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduce2. Hadoop在企业中的应用架构3. Hive会把提交的sql转换为一系列M...
2018-07-04 11:56:16 2547
原创 大数据技术原理与应用 第一章 大数据概述
最近在学习厦门大学林子雨老师开讲的一门课程 —— 大数据技术原理与应用,决定开始做一下学习笔记。参考材料:http://dblab.xmu.edu.cn/post/bigdata-online-course/#lesson01. 大数据4V特征大数据具有数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)等特点,统称“4V”。2. 大数...
2018-07-03 17:33:47 3465
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人