大数据相关
码破苍穹
中国普通青年
展开
-
gerrit提交代码到未merge的commit上,以patch的方式提交(不完整)
切换到该分支上,git amend commit 即可。这个步骤可以基于IDE实现。原创 2023-02-07 14:42:25 · 461 阅读 · 0 评论 -
为pyspark DataFrame增加一列
场景是为现有的dataFrame新增一列数据,这些数据与原有数据无关。其功能类似于pandas的join。参考python - PySpark - Adding a Column from a list of values - Stack Overflowfrom pyspark.sql import SparkSessionimport numpy as npimport pandas as pdfrom pyspark.sql import functions as F原创 2022-03-02 19:23:47 · 4168 阅读 · 0 评论 -
IDEA+Maven配置spark的pom.xml以及踩的一个坑
EmptyDataError不是python里的,所以不能直接except EmptyDataError:应使用:原创 2021-07-19 16:31:02 · 2847 阅读 · 0 评论 -
pyspark dataframe的常用操作
1、列重命名:train_data = train_data.toDF('imei', 'pkgName', 'timestamp')2、删除某一列:3、选取某些列:train_data = train_data.filter(train_data.date != "2021-03-01")原创 2021-03-04 11:30:00 · 3314 阅读 · 2 评论 -
spark local模式设置内存,以防跑着跑着内存爆了导致spark context被杀掉
https://stackoverflow.com/questions/43971022/how-to-tune-memory-for-spark-application-running-in-local-mode设置大大的spark.driver.memory,而不是spark.executor.memory原创 2020-12-30 16:27:09 · 1756 阅读 · 0 评论 -
docker下启动jupyter,并跑spark的方法
非 正 常 环 境操作方法:1、下载并解压spark内容2、以挂载的卷作为中转将spark文件复制到目标目录3、 import os os.environ["SPARK_HOME"] = "/usr/lib/spark" (换成上面的目标目录)运行jupyter时执行一下上面的语句就行了。不过似乎在jupyter设置一次就行。关了也能用。...原创 2020-12-30 16:18:30 · 312 阅读 · 0 评论 -
如何快递获得某个sql表的长度?
select count(*) from A 其中A为表的名称原创 2017-11-21 20:35:45 · 2179 阅读 · 2 评论 -
Ubuntu14.04下安装Hadoop 2.9.0
基本上是参照http://www.linuxidc.com/Linux/2015-09/122873.htm 的方法安装的但是在执行对hdfs的格式化时,应cd 到安装目录中的sbin下(见http://blog.csdn.net/thinkpadshi/article/details/45720405相关部分)即可...原创 2018-01-01 21:06:58 · 399 阅读 · 0 评论 -
Hadoop 2.9.0 伪分布式搭建,并运行wordcount 的一些坑
1、前期建立java环境,安装hadoop的掠过不谈。只要输入jps命令后,能出现类似于6528 NodeManager6227 SecondaryNameNode6035 DataNode7398 Jps5914 NameNode6410 ResourceManager的就行了。如果没有NameNode,可以参考http://blog.csdn.net/dongzhongy...原创 2018-01-14 14:50:02 · 1614 阅读 · 1 评论 -
Ubuntu环境下,hadoop全分布式配置的一些小技巧和坑
主要参考了 http://blog.csdn.net/xiaoxiangzi222/article/details/52757168/为了让虚拟机也能上网,使用了NAT模式。同时为了虚拟机间通信方便,应设置静态IP。1、在右上角点连接,可以直接了当的设置虚拟机的静态IP地址。2、同样在右上角,点设置,可以直接修改hostname。当然,想修改host,还是要使用文本编辑器编辑。使用 s...原创 2018-01-24 09:00:19 · 191 阅读 · 0 评论 -
安装mysql的一些小坑
照着http://www.linuxidc.com/Linux/2017-06/144805.htm来做的,然而提示暂时不能解析域名“cn.archive.ubuntu.com” 失败然后ping 这个地址也不通。这时可以 sudo vi /etc/resolv.conf然后加上 nameserver 8.8.8.8,而解决 ...原创 2018-01-31 17:34:01 · 149 阅读 · 0 评论 -
w10 安装maven,配置好环境变量后提示mvn无此命令的个人解决方法
方法1:参考https://blog.csdn.net/u014079773/article/details/49718207方法2:从百度知道上看的,可以使用管理员身份运行CMD原创 2018-05-02 17:02:58 · 1113 阅读 · 0 评论 -
mysql8连接jdbc踩坑实录
1、maven里mysql-connector-java要及时更新,最好改成和mysql一样的版本2、记得将eclipse的编码方式和mysql的编码方式统一为utf8,不然就会是utf8mb4这种东西。 3、老生常谈的 “Client does not support authentication protocol requested by server;”mysql8的改法...原创 2018-05-13 22:28:46 · 2152 阅读 · 1 评论 -
apache ab,443接口占用
(OS 10048)通常每个套接字地址(协议/网络地址/端口)只允许使用一次。 : make_sock: c ould not bind to address 0.0.0.0:443(或者其他端口) 被VMware所占用。使用https://blog.csdn.net/u012185875/article/details/71639887https://bl...原创 2018-05-24 15:36:20 · 2992 阅读 · 0 评论 -
nginx 配置,has no opening “{”的一种可能性
1.报错:[emerg]directive "location" has no opening "{" in .....解决方法: 由于对应行或者附近行的“{”前面缺少空格,导致该错误! 这是一种可能性。 另一种可能性是 nginx.conf中,空格和tab混用导致。恩,和python的感觉差不多。本博主将tab用空格替代后解决了问题...原创 2018-05-20 14:30:10 · 3170 阅读 · 0 评论 -
啥也不装,基于eclipse对MapReduce程序进行运行和调试,学习用
不需要在windows下建立hadoop环境,其目的是单机调试,并看看相关的源码等。步骤:1、建立一个java project之后,将其转化为maven project2、在pom.xml 中引入相关的hadoop库。Hadoop相关的有4个。我的选用了2.4.0的版本。还要加上一个jtool的包。pom.xml如下<project xmlns="http://maven....原创 2018-06-12 09:22:23 · 317 阅读 · 0 评论 -
spark使用scala时快速输出键值对的值
b.collect.foreach(println(_))其中,b是键值对原创 2018-02-04 10:31:20 · 1277 阅读 · 0 评论 -
spark安装小tips
spark的安装貌似很简单。值得一提的是,在配置env文件时,dist-path可以写成: export SPARK_DIST_CLASSPATH=$(hadoop classpath)简便些。原创 2018-02-02 10:37:41 · 203 阅读 · 0 评论 -
安装hive+mysql,卡在schematool -dbType mysql -initSchema这一步的解决方案
这两天安装hive时,在最后一步,schematool -dbType mysql -initSchema报org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.Underlying cause: com.mysql.jdbc.exceptions.jdbc4.Communica...原创 2018-02-01 12:10:19 · 4786 阅读 · 0 评论 -
w10 使用Intellij idea基于maven跑wordcount
流程是照着这个搞得https://www.polarxiong.com/archives/Hadoop-Intellij%E7%BB%93%E5%90%88Maven%E6%9C%AC%E5%9C%B0%E8%BF%90%E8%A1%8C%E5%92%8C%E8%B0%83%E8%AF%95MapReduce%E7%A8%8B%E5%BA%8F-%E6%97%A0%E9%9C%80%E6%90...原创 2018-05-04 15:26:10 · 722 阅读 · 0 评论