- 博客(11)
- 资源 (6)
- 收藏
- 关注
原创 Spark中map和flatMap的理解
笔记:本文记录了map和flatMap的区别函数原型1.data.map(function)该函数是data的方法,传入的参数为一个函数(function),作用:对data中的每一个项进行function操作,并返回RDD,该RDD的项的数目等于原data的项的数目。2.data.flatMap(function)flatMap方法和map方法类似,但
2018-01-26 10:55:43 3753
转载 从0到1走进 Kaggle
说明:此文为转载文章原文地址:https://www.sogou.com/link?url=MRoBrhLn5VOq3ElXD5oSMd_XgP1zvUTkLJjCFm6DQ2VC_5YQh9iLzQ..原文标题:从0到1走进 Kaggle目录:kaggle 是什么?如何参赛?解决问题一般步骤?进一步: 如何探索数据?如何构造特征?提交结果
2017-12-25 10:32:11 753
转载 Kaggle常用函数总结
说明:此文为转载文章原文链接:https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuywZLo1rl5XqVXDhe0_TzELsm3Pojx-sH_PfgfR9iaaFcli2XqWBCyuE.原文标题:Kaggle常用函数总结 原创 2017年07月03日21:47:34 标签: kaggle ...kaggl
2017-12-25 10:23:44 969
原创 自然语言处理 之 条件频率分布(四)
一:概念条件词频分布:即单词在不同情况中出现的次数。比如,在布朗语料库中,单词can既可以出现在类别religion中,也可以出现在news中,分别求can 在两种文本中的出现次数,记为条件词频分布。这里,条件是文本类型,事件是单词can。二 相关函数三:应用(1)按照文体统计词频程序:from nltk.corpus import brown
2017-11-10 10:47:40 622
原创 自然语言处理 之 语料库相关(三)
一:针对nltk语料库的相关处理函数 1 、导入语料库的方法 1)一步到位导入语料库 如:导入gutenberg的语料库 nltk.corpus.gutenberg.fileids() 2)为避免1)中的过场语句,可以分开导入,如下: from nltk.corpus import gutenberg
2017-11-10 09:54:03 2545
原创 自然语言处理(二)
一:词链表的概念 词链表其实就是Python中序列的意思,只不过这个列表存储的内容是一个个单词。字、词、句、段落再到篇章,由小到大。如:sentence=['call','me','Ishmael'],这就是一个简单的词链表。关于列表是Python的存储结构,另外两种还有字典及元祖,值得注意的是元祖和字符串是不可变的序列。关于序列的相关操作如分片、合并、索引等可以查阅相关书籍
2017-11-09 12:49:20 437
原创 自然语言处理入门(一)
一,如何利用python导入nltk包 我自己的电脑安装的是anaconda包,Python3.6版本。在anaconda中有nltk这个模块,话说这个anaconda还真是强大,打开Python ,输入下面两行代码:import nltknltk.download()这是会弹出一个界面,显示的是需要下载的文件,点击all即可,等待下载完毕,就可以使用nltk了。非常
2017-11-09 09:51:28 494
转载 五大常用算法之二:动态规划算法
版权声明:此文为转载文章原标题:五大常用算法之二:动态规划算法原标题链接:http://www.cnblogs.com/steven_oyj/archive/2010/05/22/1741374.html此文作者:红脸书生 链接:http://home.cnblogs.com/u/steven_oyj/一、基本概念 动态规划过程是:每次决策依赖于当前状态,又随
2017-10-25 21:30:15 286
转载 数据类型和抽象数据类型(转载)
出处:转载自博主 @mybichu的博小站 出处标题:数据类型和抽象数据类型出处链接地址:http://www.cnblogs.com/yuxiuyan/p/5831587.html我们知道在各种编程语言中都会有数据类型。一.数据类型先看看为什么会有不同的数据类型呢?很简单,很多东西不能一概而论,而是需要更精确的划分。计算机计算1+1并不需要多么大的空间,但是计
2017-10-21 10:55:45 605
转载 什么是P问题、NP问题和NPC问题
声明:该贴为转载博主Matrix67的文章,标题为其原标题原文链接:https://www.sogou.com/link?url=DSOYnZeCC_qY0PIv4VlczGygJXoJCyAAJ6zaMYFpUayUpOm3cKyGcDzhncnW0pI2这或许是众多OIer最大的误区之一。 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证
2017-10-08 10:16:56 874
原创 Windows下安装python以及常用的IDE Eclipse
CSDN上的第一篇博客。作为一名机器学习的爱好者,经常需要在网上查询各种各样的资料,经常出现一种情况就是,用的时候临时从网上找资源,找教程,这样是可以解决问题的,但是当第二次再碰到这个问题的时候,又要重新找教程(PS:记忆力好的就另当别论了,哈哈),这是很费时间的。所以从今天开始在CSDN上记录下自己的在安装软件、学习机器学习以及其他学习过程中碰到的各种各样的坑,一则是为了避免自己再入坑,二则
2017-07-06 20:06:57 493 1
labvies入门与实战开发100例
2017-06-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人