数据分析
qq_18617299
无无无
展开
-
pandas 常见 使用方法 以及使用场景
numpyNumpy:是N维数组对象(ndarray),是通用的同构数据多维容器。即其中的所有元素必须是同种类型ndarray有两个属性。shape:表示各维度大小的元祖 dtype:数组数据类型的对象ndarray 数据类型float64 int32numpy 索引:数组切片是原始数组的视图,视图上的任何修改都会直接反映到原数组上。切片索引array [[1,2,3],[4,5,6],[7,8,9] ]array[1,:2] [4,5]第一个值1是沿着第0轴原创 2020-08-13 17:13:43 · 1510 阅读 · 0 评论 -
Cassandra 原理理解以及安装文档解释
datacenter 和 rack1.datacenter 数据中心 和 rack 机架。一般一个 机房设置一个 datacenter,不同机架 设置不同的rackCassandra primary key composite keycreate table sample { key_one text, key_two text, data text, PRIMARY KEY(key_one, key_two)};在上面的示例中,我们所创建的Primary原创 2020-12-11 14:59:05 · 305 阅读 · 0 评论 -
Cassandra cqlsh使用
启动cqlshbin/cqlsh $host $port -u $username -p $password通过 IP地址 和端口 Cassandra 用户名、密码 进入cqlshdemo:cqlsh -u hujunde -p Hujunde0402demo2:cqlsh 192.168.227.22 -u hujunde -p Hujunde0402 进入 cqlsh;在cqlsh 里面查看环境变量cqlsh> describe cluster;Cluster: Tes原创 2020-12-11 14:56:29 · 486 阅读 · 0 评论 -
pyspark udf 原理
pyspark pandas 用户自定义函数 转化为 udf(user defined functions)scalarscalar pandas UDF 用于向量化scalar 操作;The Python function should take pandas.Series as inputs and return a pandas.Series of the same length.(输入输出均为 pandas.Series,输出为相同长度的series)Grouped map UDFsYou原创 2020-11-01 17:26:11 · 619 阅读 · 0 评论 -
PySpark 运行程序参数详解以及常见服务器运行错误
pyspark 运行程序相关参数 command line spark-submit \ --name dp_main_spark-03 \ --master local[*] \ --driver-memory 80G \ --executor-memory 16G \ --conf spark.default.parallelism=500 \ --conf spark.shuffle.memoryFraction=0.3 \ dp_main_spark-03.py \ bm \原创 2020-11-01 17:22:16 · 763 阅读 · 0 评论 -
**网站 数据分析项目(三)hadoop word count 原理一
MapReduce 原理篇MapReduce 是一个分布式运算程序的编程框架,是用户开发"基于hadoop的数据分析与应用"的核心框架:MapReduce 核心功能是 将用户编写的业务逻辑和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上MapReduce java 版本 wordcount用户编写的程序分为三个部分:Mapper、Reducer、Driver(提交运行mr 程序的客户端)MapPerMapper<LongWritable, Text, Text原创 2020-08-26 23:39:44 · 161 阅读 · 0 评论 -
python 具体场景应用
python 保留指定位数的小数format(1.23455,".2f") 保留两位小数list去重data=[1,2,35,2,1]list(set(data))python 读取json 文件 loads将str转化成dict格式 with open(input_path, 'r', encoding="utf-8") as f: json_data = json.load(f) # 读取json文件,并转化为字典格式 # json_dict = j原创 2020-08-24 12:07:38 · 117 阅读 · 0 评论 -
**网站 数据分析项目(二)RPC和 同步、异步知识点讲解
RPC(Remote Procedure Call Protocol) 远程过程调用远程过程调用,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。也就是说两台服务器A、B,一个应用部署在A服务器上,想要调用B服务器上应用提供的方法,由于不在一个内存空间,不能直接调用,需要通过网络来表达调用的语义和传达调用的数据。PRC 协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。PRC 使得开发包括网络分布式程原创 2020-08-23 18:56:53 · 749 阅读 · 0 评论 -
**网站 数据分析项目(一)flume 工具 使用
flume海量日志采集系统source channel sinksource 相当于抽象的source 接口,可以实例成对接上级agent来源或者文件netcat_logger.conf 配置文件#Name the components on this agenta1.sources=r1a1.sinks=k1a1.channels=c1#Describe/Configure the sourcea1.sources.r1.type=execa1.sources.r1.comman原创 2020-08-23 18:54:19 · 138 阅读 · 0 评论 -
python 基本知识点汇总
Python 数据结构特点数值、字符串、元祖(tuple)采用的是复制方式(深拷贝)即python 引用全局变量需要引用全局变量前加个 globaldemo:x = 5print(5) def get(): global x x = x + 10 print(x) get()python 字典遍历data a {‘a’: ‘1’, ‘b’: ‘2’, ‘c’: ‘3’}1.遍历 key 值for key in a:print(key+":"+原创 2020-08-13 18:23:43 · 188 阅读 · 0 评论