自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(47)
  • 收藏
  • 关注

转载 堡垒机读取中文文件显示乱码解决办法

linux终端输入iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8 然后路径中新生成1个.utf8的文件,打卡它即可正常显示中文 ...

2019-04-18 15:15:00 2377

转载 区块链合集

区块链共识机制分析——论PoW,PoS,DPos和DAG的优缺点 https://www.8btc.com/article/174678 区块链共识机制的演进 https://www.cnblogs.com/studyzy/p/8849818.html 区块链智能合约解决方案 htt...

2018-11-19 12:46:00 311

转载 Execution Error,return code 2 from org.apache.haddop.hive.ql.exec.mr.MapRedTask解决办法

insert overwrite table XX 1.建表后修改过表结构(增删字段等)后,重新加载数据时报return code2错,元数据和数据文件不匹配导致 解决办法:重建一张新表; 2.解决办法:修改表结构时加cascade 3.若排查定位是内存不足,则到资源充足的库新建...

2018-10-22 18:54:00 968

转载 台式机Chrome打不开网盘,网页无法访问,连接已重置???

问题描述:My台式机Chrome打开https://pan.baidu.com网页显示“无法访问此网站,连接已重置”,确认该连接在My笔记本电脑可正常打开 排查:1.是否被“墙”? www.checkgfw.com显示,没有被“墙” 2.是...

2018-10-16 13:53:00 1918

转载 HADOOP集群搭建实战

参考《史上最详细的hadoop环境搭建》https://blog.csdn.net/hliq5399/article/details/78193113 参考《单机部署》https://www.cnblogs.com/ee900222/p/hadoop_1.html 参考《超详细单机版搭建h...

2018-10-15 21:29:00 105

转载 Git常用命令

进入客户端的Git Bash: cd d: mkdir mygit_xyz cd mygit_xyz ll pwd ---查看当前路径 git --version ---查看当前版本 git update-git-for-windows ---升级版本(需要进入安装包路径后) ...

2018-10-15 17:34:00 117

转载 常用DOS命令

1.查看电脑配置 开始---运行--dxdiag 2.“运行”窗口快捷键 win+R 转载于:https://my.oschina.net/u/3575262/...

2018-01-09 09:28:00 112

转载 Python字典

参考http://www.jb51.net/article/47990.htm 参考https://www.cnblogs.com/yjd_hycf_space/p/6880026.html(写的挺好) #!/usr/bin/python dict = {'Name': 'Zara', '...

2017-12-27 17:59:00 195

转载 【Pyspark】Map、FlatMap、filter、union等常用

参考https://www.iteblog.com/archives/1395.html#map [Map] # map # sc = spark context, parallelize creates an RDD from the passed object x = sc.paral...

2017-12-26 11:43:00 1695

转载 CPU、内存、磁盘、硬盘

参考https://www.cnblogs.com/hellojesson/p/5793583.html CPU:是计算机的运算核心和控制核心,让电脑的各个部件顺利工作,起到协调和控制作用。 硬盘:存储资料和软件等数据的设备,有容量大,断电数据不丢失的特点。也被人们称之为“数据仓库”。 内存...

2017-12-20 10:14:00 140

转载 HDFS存储原理【萌图易懂】

转载http://blog.csdn.net/u013160024/article/details/52161198 转载于:https://my.oschina.net/u/357526...

2017-12-20 10:14:00 94

转载 线程、进程、并行、并发

【并行和并发】参考https://www.zhihu.com/question/33515481 你吃饭吃到一半,电话来了,你一直到吃完了以后才去接,这就说明你不支持并发也不支持并行。 你吃饭吃到一半,电话来了,你停了下来接了电话,接完后继续吃饭,这说明你支持并发。 你吃饭吃到一半,电话来了...

2017-12-19 14:20:00 89

转载 数据平衡(与数据倾斜)

参考https://www.ibm.com/developerworks/cn/data/library/bd-1506-hdfsdatabalance/index.html 转载于...

2017-12-19 14:05:00 361

转载 HDFS数据处理速度比本地数据慢得多

参考https://www.cnblogs.com/sdksdk0/p/5585047.html 【HDFS原理】 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类是NameNod...

2017-12-19 13:58:00 2612

转载 [Bug fixed]UnboundLocalError: local variable 'var_Chinesename' referenced before assignment

[Bug] Traceback (most recent call last): File "<stdin>", line 51, in <module> File "...

2017-12-18 17:48:00 237

转载 【SPARK】基础知识(RDD两大类算子常见函数)

*********参考http://blog.csdn.net/x333vxhl/article/details/55048342************* *********参考https://www.cnblogs.com/sharpxiajun/p/5506822.html******...

2017-12-18 16:26:00 616

转载 【PySpark】RDD的map操作小例子

#################test.py###################### #cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py #!/usr/bin/python import sys for line in sys....

2017-12-18 14:19:00 1926

转载 【Windows Git】gitbash将本地代码上传到github

1.打开git bash,用cd命令进入存放本地代码的路径 e.g. cd d:mytest (纯英文,不支持中文路径) 2.git init 在当前的项目目录中生成本地的git管理 3.git add . 表示你要提交到github上的文件,如果你要将所有文件都添加上去的话,使用git...

2017-12-18 11:19:00 100

转载 【指标】GMV和销售额、SPU、SKU、商品、单品

不要被GMV忽悠了!!!GMV比较水 GMV:Gross Merchandise Volume,商品总交易额(总成交金额,含已付款和未付款等),电商业常用。 GMV=销售额+取消订单金额+拒收订单金额+退货订单金额,看来只要是流水就能计入 ------------------------...

2017-12-14 11:45:00 7656

转载 python模拟MapReduce的感受

技术的海洋,太宽太深,往往学会了这一点,发现还有更多新的东西要学,学不完的赶脚啊!!! 此例子简单,但能帮助快速体会Map和Reduce到底在干什么 目的是求出每个年份的最大值 [zhangyuxia@hadoop234 ~]$ cat test.dat 1950051507004999...

2017-12-14 11:05:00 111

转载 程序=数据结构+算法

【数据结构】 【参考】http://blog.csdn.net/long316/article/details/52595248 Array:经常用,大小固定占内存小,运行效率较高 ArrayList:长度不固定,动态增加,占内存大效率低 List:经常用,容易 IList: IC...

2017-12-14 10:07:00 80

转载 时间序列分析

年份至少在20年以上,数据越多越好,数据少导致模型结果更加不准,不具备参考意义 【工具】EVIEWS 转载于:https://my.oschina.net/u/3575262/blog/...

2017-12-13 14:48:00 112

转载 BI系统之数据预处理

数据预处理(ETL/清洗、集成)往往占据70%左右的时间精力,非危言耸听,亲历! 参考/转载自:http://blog.csdn.net/zrjdds/article/details/50223091 【缺失值】 原因:人为原因(遗漏、)+机器原因(故障、性能差无获取能力、)+业务原因(...

2017-12-13 11:17:00 315

转载 BI系统大框架

BI(Business Intelligence)商业智能系统,大中型互联网公司都有,一般都由多个组共同组建。BI建设的完备程度参差不齐。目的是盘活数据资产,让数据说话助推甚至指导企业/部门优化运转,节约成本/提高效益。 BI=ETL+Data Mining+Data Analysis + ...

2017-12-11 18:11:00 287

转载 Spark计算性能调优经验汇总

【参考https://www.cnblogs.com/jcchoiling/p/6440709.html】写的真不错 ,很解渴 大数据spark性能优化的本质与软件无关,归根到底还是要回归到硬件(CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互))的优化...

2017-12-08 18:37:00 186

转载 vim常用命令

【替换命令】 r 将当前字符替换为,字符即光标所在字符。 s/old/new/ 用old替换new,替换当前行的第一个匹配 s/old/new/g 用old替换new,替换当前行的所有匹配 %s/old/new/ 用old替换new,替换所有行的第一个匹配 %s/old/new/g ...

2017-12-08 15:21:00 47

转载 数据库和数据仓库的关系/HDFS、Hive、MR、Sql、HQL、Mysql

【数据仓库和数据库的联系与区别】 数据库是为捕获数据而设计,数据仓库是为分析数据而设计 【Hive和Mysql】 我理解的是,Hive是通过将HQL语言解释成MR来操作HDFS中的数据,HIve相当于介于HQL和MR的桥梁,运行速度比较慢,适合离线数据处理 Hive是基于分布式数据库H...

2017-12-08 15:06:00 535

转载 hive中表类型和ETL

Hive最重要的部分是sql的group by和join MR就是一个group by的过程;Shuffle是一个介于Map和Reduce之间的过程,从Map到Shuffle到reduce计算出结果前,存储的都是key/value形式的数据 【Hive支持数据类型】 原子数据类型:数值型...

2017-12-08 14:04:00 1621

转载 大数据常见问题:数据倾斜

【数据倾斜】计算数据时数据分散不够,大量数据集中到少量几台甚至1台机器上进行计算,此时计算速度远远低于平均计算速度,导致整体计算速度很慢。此问题出现的关键诱惑因是“数据量非常大,比如千亿级” 数据倾斜原因:Spark和Hive,数据运算时count/distinct/group by/joi...

2017-12-08 11:11:00 152

转载 sql常用函数汇总(基础、高级)

【操作符】= 等于,<>不等于,>,<,>=,<=,between在某个范围内,like搜索某种模式; 【其它】数值不加单引号,文本加单引号;and/or; order by 默认升序,降序desc; insert into; update set; d...

2017-12-08 10:04:00 138

转载 SQL性能调优经验

********这个写的挺好http://www.nowamagic.net/librarys/veda/detail/1502/******** 【理解sql关键字执行顺序及优化方案】 查询中用到的关键词主要包含六个,并且他们的顺序依次为select--from--where--gro...

2017-12-08 09:52:00 85

转载 数据建模流程/步骤

1.确定业务目标 2.数据获取 自有数据、爬虫数据 3.数据检验 唯一性(去重)、样本完整性(样本分布不能偏离总体分布太远)、取值范围、异常值(极值、错误的数值等) 4.变量选择(数据清洗) 【转载自http://www.jianshu.com/p/6a3146808a...

2017-12-06 16:34:00 1404

转载 Spark Core 和MR

什么是Spark Core?它提供Spark最基础与最核心的功能,包括Spark Context + 存储体系 + 计算引擎 + 部署模式 SparkContext:Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application...

2017-12-06 14:40:00 110

转载 Spark机器学习库MLlib

Spark MLlib与Hadoop Mahout,可以对比着学习,以下是MLlib主要支持的机器学习算法 【转自赖永炫老师的个人博文】MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以...

2017-12-06 13:56:00 210

转载 各层级统计学知识点

【入门基础】 随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析(一元线性、一元非线性)等 条形图/线形图/饼图/箱线图 相关性和因果性 时间序列分析(平...

2017-12-06 10:26:00 399

转载 Shell种类、Shell Script 、Linux命令、Hadoop命令

1.操作系统Shell Shell本身是用户操作Unix/Linux系统的桥梁。Shell是脚本语言,可处理多个linux命令;理解“脚本”,就很容易学了。把bash学会、学透比较重要 ---------框内转自http://blog.csdn.net/chentiefeng521/...

2017-12-05 10:24:00 81

转载 Spark生态圈/计算框架

1.核心数据结构RDD RDD操作只有两个:转换和动作 2.SPARK生态圈 Spark Streaming Saprk SQL:经常使用,比较熟,很方便 MLib GraphX 3.Spark语言 spark-shell:scala语言...

2017-12-04 18:16:00 116

转载 大数据可视化工具汇总

1.图表秀:简单方便易用;可生成比较复杂漂亮的图;交互界面友好,操作门槛很低,懂表和数据即可 2.在线Echarts:http://echarts.baidu.com/echarts2/doc/example.html 稍微修改代码即可,简单快捷;依托于网页前端技术,有计算机基础就...

2017-12-04 16:03:00 96

转载 Code版本控制系统汇总

1.集中式版本控制系统 必须联网,网速影响管理效率 CVS:没用过,不说了 SVN:经常使用,不用写命令,下载个客户端TortoiseSVN,配置好有读写权限的路径,在本地创建专门的一个文件夹存放从SVN上download下来的所有资料,右键点鼠标操作即可;必须右键单击文件夹才能...

2017-12-04 14:20:00 195

转载 技术学习资源汇总

1.菜鸟教程(www.runoob.com) 2.廖学锋的官方网站 3.MOOC 4.网易云课堂 5.Github 6.开源社区 7.可汗学院公开课 8.CSDN 9.http://www.yiibai.com/ ...

2017-12-04 14:11:00 71

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除