自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark连接MySQL数据库并读取数据

(作者:陈玓玏)打开pyspark,带驱动的那种用命令行启动pyspark时需要加上jdbc的驱动路径:pyspark --driver-class-path D:/Users/chendile/Downloads/mysql-connector-java-3.1.14.jar在Linux和Windows命令行下都可以用这种方法,但是如果出现以下错误:py4j.protocol.Py4...

2018-11-24 22:08:48 6365

原创 Pyspark中RDD对象的使用

(作者:陈玓玏)下文中用到的数据集下载地址:http://files.grouplens.org/datasets/movielens/ml-100k.zip, 下载到自己的机器上,然后使用时记得把下面的路径替换成你自己的路径。写得不太好,后面会再完善。获取Spark中的rdd不能直接用索引来取数,都要用以下方法:#读取文件内容user_data = sc.textFile('root...

2018-11-24 22:00:31 1269

原创 Windows10安装spark(包括hadoop安装)

(作者:陈玓玏)环境安装命令行中输入java –version,看是否能正确输出版本信息,不能则需要安装,可以自己搜索一下Windows下java环境的安装。Scala安装下载地址:http://www.scala-lang.org/download/2.11.8.html下载安装后配置路径,在环境变量的系统变量path中添加以下链接:在命令行输入scala,能够输出版本信息即安装...

2018-11-24 21:39:42 3094

原创 Python的Markdown库添加escape限制

(作者:陈玓玏)想要把markdown格式的文件转换成html格式,使用python的第三方库markdown是一个非常不错的选择,但存在一个很恶心的问题,那就是它会把&符号翻译成&,并且把<翻译成<。但很多时候,我们并不希望其翻译,比如说网址中有&符号时,又比如说公式中有&符号时,这样网址和公式就不能被正常识别了。这个问题在开发者的官方文档中提到了,...

2018-11-18 21:36:19 1055

原创 机器学习中L1L2规则化详解(先验及稀疏性解释)

(作者:陈玓玏)1、 为什么要正则化?知乎上有个兄弟说得对(https://www.zhihu.com/question/20924039 这个问题下Stark Einstein的回答),不应该说是正则化,应该说是规则化,也就是说,我们原来是在完全没有任何先验知识的情况下进行的训练,那训练出来的结果有可能会“过”,你不知道哪个特征会有用,于是你找了很多特征,尽可能精确地去拟合你的训练数据,结果...

2018-11-03 09:31:50 7910 1

原创 Linux下安装单机版Spark并使用scala和python

(作者:陈玓玏)只学习spark,还不学分布式的时候,可以先单机装spark,这时候不需要用到hadoop的,但是仍然需要java环境,所以要先安装java的jdk。1、 下载并安装java jdk:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 地址,下载一样的位置,...

2018-11-02 20:36:10 3596

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除