大数据
得克特
深度学习 python
展开
-
pyspark sortBy和sortByKey
sortBy和sortByKey都有keyfunc函数,两者应用的对象不同sortBy应用到整个Row,而sortByKey应用到key上。在一次排序中,我的row类似(x,(1,1,1,b))我想用b作为排序的依据,则应该写作rdd.sortBy(keyfunc=lambda x: x[1][3]),而我不小心写成了rdd.sortByKey(keyfunc=lambda x: x[1][3]),结果报错ValueError: too many values to unpack,这是因为key为x原创 2021-08-26 16:33:53 · 1579 阅读 · 0 评论 -
es 基础操作
文章目录查询查询结果结构hits查询from elasticsearch import Elasticsearches = Elasticsearch('ip:9200', timeout=100) # 在请求超时timeout之前,Elasticsearch 将会返回已经成功从每个分片获取的结果。timeout 不是停止执行查询,它仅仅是告知正在协调的节点返回到目前为止收集的结果并且关闭连接es.search(index='') 或者es.search(index='',query={'que原创 2020-09-29 15:37:00 · 206 阅读 · 0 评论 -
mysql插入数据error Data too long
pandas有个to_sql的函数,支持批量将DataFrame数据导入mysql,通常,如果某一列超过规定大小,mysql有两种常用的处理方式:一是宽松模式,如果超过规定大小,也会执行成功,返回一个warningspandas返回警告 Warning: (1265, "Data truncated for column 'EM' at row 13")二是严格模式,插入操作会直接报错Data too long模式的设置位于mysql的配置文件中,通常linux的配置文件存放位置/etc/my.cn原创 2020-05-16 16:30:03 · 870 阅读 · 0 评论 -
mysql 8.0版本安装 windows下本地连接数据库ERROR 1130: host 'localhost' not allowed to connect to this MySQLserver
尝试过诸多办法都无效,修改密码,将localhost换为%,其实想想明显无效,因为本地就是localhost,最终找到新的安装方法完成安装MySQL 8.0.19安装教程(windows 64位)...原创 2020-04-08 16:08:38 · 696 阅读 · 0 评论 -
window安装neo4j简记
一、环境准备neo4j是用Java语言编写的图形数据库,运行时需要启动JVM进程,因此,需安装JAVA SE的JDK。安装好后cmd输入java -version检查是否安装好。二、下载安装从官网下载最新版Neo4j 社区版(Community)。需要注册后才能下载。下载好后解压到自己想放的盘里,例如:C:\Program Files\neo4j-community-3.4.0Neo4j...原创 2020-04-07 15:42:09 · 147 阅读 · 0 评论 -
Gridfs和bson存储非结构化文件(Python)
文章目录1 Gridfs和bson存储大文件1.1 Gridfs1.2 bson上传(<16m)1 Gridfs和bson存储大文件GridFS 用于存储和恢复那些超过16M(BSON文件限制)的文件(如:图片、音频、视频等),适合于不常改变但是经常需要连续访问的大文件。pymongo 利用gridfs构建大文件存储系统1.1 Gridfsimport osimport sysf...原创 2019-09-05 14:22:45 · 337 阅读 · 0 评论 -
MongoDB--基础实践
文章目录MongoDB简介简单使用启动连接和登录退出和关闭数据库退出客户端关闭数据库进程:常用操作查询条件条件操作符排序MongoDB简介MongoDB 是由C++语言编写的,是一个基于分布式文件存储面向文档存储的开源数据库系统。MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及...原创 2019-08-26 14:58:06 · 429 阅读 · 0 评论 -
mysql入门
mysql 知识点汇总原创 2019-07-19 15:51:53 · 131 阅读 · 0 评论 -
redis 基础记录
简介REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。它通常被称为数据结构服务器,因为值(value)可以是 字符串(String), 哈希(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等类型。Redis 教程原创 2020-11-29 22:53:21 · 89 阅读 · 0 评论 -
Spark导入导出Hbase
本文代码通过spark-shell运行spark-shell --master yarn --driver-class-path /home/hadoop/software/spark/spark-2.4.4-bin-hadoop2.7/jars/hbase/*:/home/hadoop/software/hbase-1.4.10/conf1.Put APIPut API可能是将数据快速导...原创 2019-11-20 17:51:11 · 609 阅读 · 0 评论 -
Hive数据的导入和导出
导入以下通过hive交互shell 执行// 创建ai库create database ai;show databases;// 创建info表 partition 添加分区 字段用tab间隔create table info(name string,encode string, > decode string) PARTITIONED BY(dt string) ...原创 2019-11-18 17:45:04 · 179 阅读 · 0 评论 -
Hbase安装配置
文章目录安装 zookeeper安装hbase修改 hbase-site.xml修改 regionservers文件修改配置不使用hbase自带的zookeeper在hbase-env.sh加入hadoop配置文件的目录将master上的hbase拷贝到其它节点启动master上hbase简单使用安装 zookeeperHbase需要zookeeper的支持,安装参考zookeeper 安装...原创 2019-11-12 15:16:46 · 881 阅读 · 0 评论 -
zookeeper 安装
安装Hbase的Master需要zookeeper的支持,所以在集群上安装zookeeper。将zookeeper下载解压到指定的文件夹,修改以下配置后分发到其它的节点。修改zoo.cfg这里主要添加了data和logs的路径以及三个服务器ip和端口tickTime=2000dataDir=/usr/local/zookeeper/zookeeper-3.4.5/datadataLo...原创 2019-11-12 14:09:20 · 124 阅读 · 0 评论 -
Spark官方文档 SQL Getting Started(一)
创建表首先搞清楚Spark Session和Spark Application,Spark Application可以包括多个Spark Session。(SparkContext或SQLContext封装在Session中)创建一个临时视图,此视图与SparkSession相关联。会话结束删除。也可手动删除,或停掉sessiondf.createOrReplaceTempView("temp...原创 2019-11-07 15:10:03 · 176 阅读 · 0 评论 -
Spark常见问题汇总
1.启动Spark会有:WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set,这里是上述的两个用来节省上传jars到hdfs的选项都没有设置,会执行本地上传。请看 问题及解决2.执行Spark.sql出现Truncated the string representation of a plan since ...原创 2019-11-05 10:26:02 · 482 阅读 · 0 评论 -
Spark连接Hive
文章目录1.理论2.配置1.理论Hive通过Metastore存储元数据元数据包含用Hive创建的database、tabel等的元信息。客户端连接Metastore服务,Metastore再去连接MySQL数据库来存取元数据。有了metastore服务,就可以有多个客户端同时连接,而且这些客户端不需要知道MySQL数据库的用户名和密码,只需要连接metastore 服务即可。元数据...原创 2019-11-05 09:52:02 · 1045 阅读 · 0 评论 -
Scala实践Spark(七)Spark SQL
文章目录简介连接Spark SQL使用Spark SQL基本查询SchemaRDD读取和存储数据ParquetJSON基于RDDJDBC/ODBC服务器简介Spark SQL可以从各种结构化数据源读取数据。支持在Spark程序内使用SQl语句查询,也支持类似商业智能软件Tableau这样的外部工具通过标准数据库连接器(JDBC/ODBC)连接Spark SQL进行查询在Spark程序内使...原创 2019-10-31 17:54:09 · 770 阅读 · 0 评论 -
Scala实践Spark(六)Spark调优与调试
SparkConf配置Spark创建一个应用import org.apache.spark.SparkContextimport org.apache.spark.SparkConfval conf = new SparkConf().setAppName("spark name").setMaster("local[4]")val sc = new SparkContext(conf)...原创 2019-10-30 10:10:39 · 468 阅读 · 0 评论 -
Scala实践Spark(五)Spark集群运行
文章目录运行架构DriverExecutor集群管理器启动程序spark-submit部署应用打包代码与依赖依赖冲突Spark应用内与应用间调度集群管理器独立集群管理器Hadoop YarnApache Mesos和Amazon EC2选择合适的集群管理器运行架构Spark运行,一个节点负责中央协调,调度各个分布式工作节点,称为Driver,与之对应的工作节点称为执行器节点。Spark可以通过...原创 2019-10-29 16:54:09 · 789 阅读 · 0 评论 -
Scala实践Spark(四)Spark进阶
文章目录累加器广播变量基于分区操作与外部程序的管道RDD的操作累加器共享变量,将工作节点的值聚合到驱动器程序中。val sc = new SparkContext(...)val file = sc.textFile("file.txt")val blanklines = sc.accmulator(0) //创建Accumulator[Int]并初始化为0val callSigns ...原创 2019-10-29 11:12:37 · 242 阅读 · 0 评论 -
Scala实践Spark(三) 数据读取与保存
文章目录读取数据源数据格式保存JSONcsvSequenceFile对象文件非文件系统数据源protocol buffer文件压缩文件系统Spark SQLApache Hive数据库读取数据源本地或分布式文件系统(NFS、HDFS等)Spark中的结构化数据源Cassandra、HBase、Elasticsearch、JDBC源数据格式文本文件、JSON、CSV、Sequenc...原创 2019-10-28 17:18:03 · 2541 阅读 · 0 评论 -
Scala实践Spark(二) pair(键值对操作)
文章目录转化单个pair两个pair聚合分组连接排序action数据分区获取RDD的分区方式示例:PageRank自定义分区方式转化单个pairreduceByKey(func) 合并相同建的valuegroupByKey() 对相同键的value分组combineByKey(createCombiner,mergeValue,mergeCombiners,partitioner) 合...原创 2019-10-28 09:02:59 · 1330 阅读 · 0 评论 -
Scala实践Spark(一)
1024快乐!!!基本以下基于spark-shellscala> val lines = sc.textFile("file:///home/hadoop/software/spark/spark-2.4.4-bin-hadoop2.7/README.md")lines: org.apache.spark.rdd.RDD[String] = file:///home/hadoop/s...原创 2019-10-24 16:26:08 · 280 阅读 · 0 评论 -
Spark(六) SQL API
汇总Spark SQL和DataFrames的重要类:pyspark.sql.SparkSession DataFrame和SQL功能的主要入口点。pyspark.sql.DataFrame 分布式数据集合,分为命名列。pyspark.sql.Column DataFrame的列表达式。pyspark.sql.Row DataFrame的行表达式。pyspark.sql.Group...原创 2019-10-22 16:10:42 · 184 阅读 · 0 评论 -
python实战spark(五)常用API
常用APIclass pyspark.StorageLevel(useDisk, useMemory, useOffHeap, deserialized, replication=1)用于控制RDD存储。每个StorageLevel记录:是否使用内存,如果内存不足,是否将RDD放到磁盘上,是否以特定于java的序列化格式将数据保存在内存中,以及是否在多个节点上复制RDD分区。还包含一些常用存...原创 2019-10-18 15:37:01 · 595 阅读 · 0 评论 -
Hadoop和Spark笔记目录
学习笔记,欢迎参考!Hadoop基础学习Spark 基础、实践python实战spark(一)python实战spark(二)python实战spark(三)–SparkContextpython实战spark(四)–RDD Resillient Distributed Dataset...原创 2019-10-18 12:01:12 · 154 阅读 · 0 评论 -
Hadoop基础学习
文章目录一、理论知识1.Hadoop的整体印象2.Hadoop的优势3.Hadoop可以做什么4.Hadoop结构Hadoop存储--HDFSHadoop计算--MapReduceHadoop资源管理--YARN5.Hadoop生态二、Hadoop实际操作一、理论知识参考Hadoop是什么,能干什么,怎么使用1.Hadoop的整体印象一句话概括:Hadoop就是存储海量数据和分析海量数据的...原创 2019-07-31 14:10:28 · 1720 阅读 · 0 评论 -
python实战spark(四)--RDD Resillient Distributed Dataset
RDD Resillient Distributed DatasetSpark官方文档class pyspark.RDD(jrdd, ctx, jrdd_deserializer=AutoBatchedSerializer(PickleSerializer()))弹性分布式数据集(RDD),是Spark的基本抽象。表示可以并行操作的不可变的、分区的元素集合。1.aggregate(zero...原创 2019-10-18 11:53:20 · 499 阅读 · 0 评论 -
python实战spark(三)--SparkContext
常用APISpark官方文档SparkConfclass pyspark.SparkConf(loadDefaults=True, _jvm=None, _jconf=None)配置应用:用于将各种spark参数设置为键值对。大多数情况下,您将使用SparkConf()创建SparkConf对象,该对象将从spark.*加载值。 Java系统属性也是如此。在这种情况下,您直接在Spark...原创 2019-10-14 17:39:08 · 3699 阅读 · 0 评论 -
python实战spark(二) RDD常见操作
文章目录RDD操作TransformationsActionsRDD操作接第一篇的更新。Transformationsmap(func) 传递每一个源的数据,返回一个新的分布式的数据集。fileter(func) 选择func返回true的源元素来返回一个新的数据集。flatMap(func) 与map类似,但是每个输入项可以映射到0或多个输出项(func返回一...原创 2019-09-30 17:44:21 · 1228 阅读 · 0 评论 -
python实战spark(一)
文章目录简单使用python简单使用./bin/run-example SparkPi 10 运行一个样例代码,实际调用spark-submit提交样例脚本./bin/spark-shell --master local[2] 启动交互式的spark scala shell,在master local(也可以选择分布式的集群master的url)运行,分配两个线程。spark-shell ...原创 2019-09-19 11:09:24 · 1067 阅读 · 0 评论 -
Spark 基础、实践
Spark安装错误修改yarn-site.xml过程中遇到:hadoop 不在 sudoers 文件中。此事将被报告原创 2019-09-18 11:17:08 · 555 阅读 · 0 评论