Data_IT_Farmer-CSDN博客

转载 Redis常用操作之批量删除keys，和清空整个数据库

redis默认有0-15总共16个库，默认在0库1、选择库DB0，例：select 1 选择db110.143.153.216:8896> select 0OK2、查看所选择库的大小：127.0.0.1:6379[0]> DBSIZE(integer) 7283、获取db0库的key为”city_中国,四川省,巴中市“的数据127.0.0.1:6...

2019-05-19 20:13:58 23541

转载请告诉孩子：努力读书，是为将来拥有更多选择的权利，而不是被迫谋生

请告诉孩子：努力读书，是为将来拥有更多选择的权利，而不是被迫谋生01现在的孩子津津乐道于几个文化不高、但事业有成的名人，用于堵住家长苦口婆心的嘴。然而事实是，这样的人只是少数，大多数不爱学习的孩子，长大之后却发现：自己用几年疯狂的青春，换来了一生的卑微与底层。现在有些孩子，谈到读书，谈到吃苦，犹如谈虎色变，避之唯恐不及。一帮不学无术的女孩聚在一起，号称所谓的姐妹，以为...

2019-05-14 09:45:19 9874 1

转载 PySpark之aggregate函数，查看分区数量getNumPartitions()和查看每个分区的内容glom()介绍

聚集各分区内的元素，并利用combOp和zerovalue函数将各分区合并The functionsop(t1, t2)is allowed to modifyt1and return it as its result value to avoid object allocation; however, it should not modifyt2.函数op(t1, t2...

2019-04-20 16:02:00 3950

转载 PySpark中RDD与DataFrame相互转换操作

1. 弹性数据集RDD RDD是一个抽象的分布式数据集合，它提供了一系列转化操作（例如基本的map()、flatMap()、filter()，类集合操作union()、intersection()、subtract()）和行动操作（例如collect()、count()、take()、top()、reduce()、foreach()）。可以说，RDD是非常灵活的数据集合，其中可以存放...

2019-04-20 11:37:06 36334 2

转载 100层楼扔鸡蛋，最快速度找出，哪层是鸡蛋碎的临界点

　　假如有100层楼，总共有2个鸡蛋。需要多少次才能试探出临界点，比如，在第三层扔下去，不碎；在第四层扔下去，碎了，那第三层和第四层就是临界点。　　如果之前没准备过的话，大概第一个想到的就是二分法。1. 二分法　　首先在第50层丢第一个鸡蛋，若鸡蛋碎了，则在第一层开始往上丢鸡蛋，最坏情况是试探49+1次，为什么要从第一层开始尝试呢，因为只有2个鸡蛋；若鸡蛋没碎，则在75层丢第二次，若碎了...

2019-04-20 10:30:00 4275 2

转载 python中json dump函数和 json dumps函数有那些区别以及python的eval函数

JSON字符串用json.dumps, json.loads JSON文件名用json.dump, json.load以下内容摘自：《Python Cookbook》json 模块提供了一种很简单的方式来编码和解码JSON数据。其中两个主要的函数是 json.dumps() 和 json.loads() ，要比其他序列化函数库如pickle的接口少得多。下面演示如何将一个Python数...

2019-04-19 15:24:17 2340

转载 linux使用flock文件锁解决脚本周期内未执行完重复执行

linux使用flock文件锁解决脚本周期内未执行完重复执行关于flockflock 是对于整个文件的建议性锁。也就是说，如果一个进程在一个文件（inode）上放了锁，那么其它进程是可以知道的。（建议性锁不强求进程遵守。）最棒的一点是，它的第一个参数是文件描述符，在此文件描述符关闭时，锁会自动释放。而当进程终止时，所有的文件描述符均会被关闭。应用场景linux的crontab命令，可...

2019-04-10 21:35:53 3005

转载 MapReduce程序实例（python）

问题背景现在有两份数据，file1是校园新闻版块，每一条新闻点击记录；file2是校园新闻版块使用活跃度高的学生记录。用mr统计出某一天的点击记录里，使用ios/android手机的活跃学生的总的点击次数原始数据格式如下：file1.log，校园新闻点击记录，记录了每一次学生点击校园新闻的行为格式：学号\t姓名\t手机端\t新闻id\新闻关键词20170001 xiaoming an...

2019-04-02 10:00:12 9984 4

转载 pyspark rdd连接函数之join、leftOuterJoin、rightOuterJoin和fullOuterJoin、union函数介绍

各种JOIN在Spark Core中的使用一. inner joininner join，只返回左右都匹配上的>>> data2 = sc.parallelize(range(6,15)).map(lambda line:(line,1))>>> data2.collect()[(6, 1), (7, 1), (8, 1), (9, 1), (...

2019-03-30 11:01:01 3186

转载 Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数

Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个参数是$1，第二个参数是$2。 $# 传递给脚本或函数的参数个数。 $* 传递给脚本或函数的所有参数。 $@ 传递给脚本或函数...

2019-03-30 10:10:08 175

转载商品的spu、sku及其之间的关系

商品的spu、sku及其之间的关系今日来总结一下，电商系统中涉及到商品时必然会遇到的几个概念，SPU、SKU、单品等。彻底搞懂和明白了这几个概念对我们设计商品表是十分必要的前提条件。SPU:标准化产品单元SPU = Standard Product Unit （标准化产品单元）,SPU是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。SK...

2019-03-29 14:15:10 6657

转载关于MySQL 通用查询日志和慢查询日志分析

关于MySQL 通用查询日志和慢查询日志分析（1）通用查询日志一、通用查询日志设置二、通用查询日志查看（2）慢查询日志一、慢查询日志的设置二：slow log的日志相关参数详解三：如何在线安全的清空慢查询日志四：慢日志分析工具 mysqldumpslow和mysqls...

2019-03-16 22:02:04 1358

转载 Mysql索引介绍及使用注意事项，limit分页查询，慢查询分析

Mysql索引介绍及使用注意事项，limit分页查询，慢查询分析本文将从以下十二个方面进行介绍：一、索引概念介绍二、索引类型FULLTEXT，HASH，BTREE，RTREE有什么功能和性能上的不同呢？三、各种索引类型的使用情况四、索引种类（普通索引，唯一索引，主键索引，组合索引，全文索引，索引合并，覆盖索引）五、索引操作：创建，删除，修改六、创建索引的时机七、命中索引八、...

2019-03-16 19:12:06 1730

转载 MySQL字段为varchar类型和int类型索引的使用技巧

MySQL索引使用：字段为varchar类型时，条件要使用' '包起来结论：当MySQL中字段为int类型时，搜索条件where num=‘111‘ 与where num=111都可以使用该字段的索引。当MySQL中字段为varchar类型时，搜索条件where num=‘111‘ 可以使用索引，where num=111 不可以使用索引验证过程：建表语句：CREA...

2019-03-16 19:04:39 16218 3

转载 mysql普通索引以及联合索引介绍

mysql普通索引以及联合索引介绍命名规则：表名_字段名1、需要加索引的字段，要在where条件中2、数据量少的字段不需要加索引3、如果where条件中是OR关系，加索引不起作用4、符合最左原则https://segmentfault.com/q/1010000003984016/a-1020000003984281联合索引又叫复合索引。对于复合索引:Mysql从左到右的使用索...

2019-03-16 17:57:45 4395

转载 MySQL两种存储引擎: MyISAM和InnoDB 的区别和优缺点

MySQL两种存储引擎: MyISAM和InnoDB 简单总结Mysql 数据库主要有以下几种引擎，介绍如下，本文将主要介绍MyISAM和InnoDB这两个引擎。1.1 MyISAM和InnoDB简介 MyISAM是MySQL的默认数据库引擎（5.5版之前），由早期的 ISAM （Indexed Sequential Access Method：有索引的顺序访问方法）...

2019-03-16 16:54:36 14513 2

转载查看mysql数据库数据量大小和索引数据大小以及行数的方法

查看mysql数据库数据量大小和索引数据大小以及行数的方法查看一个数据中所有表的相关信息：（1）可以在命令下使用show table status \G命令查看：（2）如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话，可以打开MySQL的 information_schema 数据库。在该库中有一个 TABLES 表，这个表主要字段分别是：TABLE_SCHEMA...

2019-03-16 16:28:52 36572 1

转载数据仓库DW、ODS、DM概念及其区别

数据仓库DW、ODS、DM概念及其区别一、整体结构在具体分析数据仓库之前先看下一下数据中心的整体架构以及数据流向数据中心整体架构DB 是现有的数据来源(也称各个系统的元数据)，可以为mysql、SQLserver、文件日志等，为数据仓库提供数据来源的一般存在于现有的业务系统之中。 ETL的是 Extract-Transform-Load 的缩写，用来描述将数据从来源迁移到目标...

2019-03-16 15:32:38 35859 4

转载数据仓库ODS、DW和DM概念区分

数据仓库ODS、DW和DM概念区分今天看了一些专业的解释，还是对ODS、DW和DM认识不深刻，下班后花时间分别查了查它们的概念。ODS——操作性数据DW——数据仓库DM——数据集市1.数据中心整体架构数据中心整体架构数据仓库的整理架构，各个系统的元数据(包括MySQL等DB数据库，hdfs日志，原始文件等类型)通过ETL同步到操作性数据仓库ODS中，对ODS数...

2019-03-16 15:06:51 4667

转载 MySQL UNION 和 UNION all 操作符将两个结果集合并一个表

MySQL UNION 和 UNION all 操作符将两个结果集合并一个表比如第一个查询有100条两列，第二个查询结果也为160条两列，故使用union all之后，可以将这两个结果合并成一个，变成260行两列。描述MySQL UNION 操作符用于连接两个以上的 SELECT 语句的结果组合到一个结果集合中。多个 SELECT 语句会删除重复的数据。语法MySQL UNIO...

2019-03-16 14:53:44 59649 3

转载 hive 和hadoop数据压缩与存储格式选择

hive和hadoop 数据压缩与存储格式选择概述为什么会出现需要对文件进行压缩？在Hadoop中，文件需要存储、传输、读取磁盘、写入磁盘等等操作，而文件的大小，直接决定了这些这些操作的速度。压缩在大数据中的使用为什么需要压缩？1）存储2）网络/磁盘IO常见压缩方式、压缩比、压缩解压缩时间、是否可切分原文件：1403MSnappy 压缩：701M，压缩...

2019-03-12 11:55:53 1105 1

转载 Flume中的HDFS Sink配置参数说明及输出压缩配置

关键字：flume、hdfs、sink、配置参数滚动条件与输出hdfs的文件的压缩配置Flume中的HDFS Sink应该是非常常用的，其中的配置参数也比较多，在这里记录备忘一下。channel type hdfs path写入hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/可以使用flume提供的日期及%{host...

2019-03-12 11:28:34 7142

转载数据脱敏和数据加密的区别以及MySQL相关的加密函数示例介绍

一、数据脱敏和数据加密的区别数据脱敏和数据加密是两种截然不同的技术，适用于不同目的。脱敏技术主要是为了兼顾数据安全与数据使用，采用的是专业的数据脱敏算法；而加密则是通过对数据进行编码来保护数据，检索原始值的唯一方法是使用解密密钥解码数据。脱敏数据仍然便于使用，但加密数据不是。加密的主要优点在于它的可逆性，但是解密密钥存储位置、如何存储以及确定谁具有访问权限等工作都会给整个安全工作增...

2019-03-12 10:35:30 2528

转载 HIVE 窗口及分析函数应用场景

窗口函数应用场景：（1）用于分区排序（2）动态Group By（3）Top N（4）累计计算（5）层次查询hive中一般取top n时，row_number(),rank,dense_rank()这三个函数就派上用场了，先简单说下这三函数都是排名的，不过呢还有点细微的区别。通过代码运行结果一看就明白了。ROW_NUMBER() OVER函数的基本用法语法：R...

2019-02-28 23:14:06 8307 1

转载 Hive实现分组排序、分组求取topN或者分页的实现方法

使用到的语法：ROW_NUMBER() OVER(PARTITION BY COL1 ORDER BY COL2)简单的说row_number()从1开始，为每一条分组记录返回一个数字，这里的ROW_NUMBER() OVER (ORDER BY xlh DESC) 是先把xlh列降序，再为降序以后的每条xlh记录返回一个序号。表示根据COL1分组，在分组内部根据 COL2排序，而此函数计算的...

2019-02-28 22:00:08 15427

原创 Hive中HSQL中left semi join和INNER JOIN、LEFT JOIN、RIGHT JOIN、FULL JOIN区别

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。sql中的连接查询有inner join(内连接）、left join(左连接)、right join（右连接）、full join（全连接）left semi join(左半连接)五种方式，它们之间其实并没有太大区别，仅仅是...

2019-02-25 01:37:52 28272 3

转载 Linux查找文件或目录 find及结合xargs应用

find 命令主要作用是沿着文件层次结构向下遍历，匹配符合条件的文件，并执行相应的操作。Linux 下 find 命令提供了相当多的查找条件，功能很强大，如果能结合xargs等管道命令使得，更是强大无比。下面将从三个方面介绍：（1）find命令介绍及示例（2）xargs命令介绍及示例（3）、xargs结合find使用闲话少絮，正文开始：（1）find命令介绍及示例fi...

2019-02-24 23:56:17 4154

转载 Linux下查看文件和文件夹大小和内存使用情况

1Linux下查看文件和文件夹大小2 删除系统日志等场景：在sts中执行自动部署时候maven提示No space left on device错误，后来经检查发现是磁盘空间满了，用下面的方法分析发现tomcat下面的logs目录占用了很大的空间，删除多余的日志问题解决！1Linux下查看文件和文件夹大小当磁盘大小超过标准时会有报警提示，这时如果掌握df和du命令是非常明智的选...

2019-01-29 16:53:37 158908 5

转载 MySQL binlog日志格式 binlog_format

MySQL binlog日志格式 binlog_formatMySQL 5.5 中对于二进制日志 (binlog) 有 3 种不同的格式可选：Mixed,Statement,Row，默认格式是 Statement。总结一下这三种格式日志的优缺点。MySQL Replication 复制可以是基于一条语句 (Statement Level) ，也可以是基于一条记录 (Row Level)，可以...

2019-01-27 22:42:09 9753

转载 Hadoop集群Unhealthy Nodes导致计算能力下降解决方法

随着业务增长，阶段存储越来越多，近来发现Hadoop集群，在运行MapReduce程序的时候，发现任务运行很慢，直到卡在19/01/24 02:28:14 INFO mapreduce.Job: Running job: job_1504781778966_0253，不再往下执行了，经过检查，发现所有的nodes节点都处于unhealthy的状态，使用命令查看node 的状态。[work@h...

2019-01-27 22:27:13 1475 1

转载 mysql解析json字符串，字符串查找，子串截取和字段类型转换相关总结

mysql解析json字符串，字符串查找，子串截取和字段类型转换相关总结很多时候，我们需要在sql里面直接解析json字符串。这里针对mysql5.7版本的分水岭进行区分。1.对于mysql5.7以上版本使用mysql的内置函数JSON_EXTRACT(column, '$.key')，这个函数有两个参数，第一个参数column代表json列的列名；第二个参数key代表json...

2019-01-21 21:00:01 54427 1

转载 linux大文件分割 split命令

linux大文件分割 split命令inux split 命令　　功能说明：切割文件。　　语　　法：split [--help][--version][-<行数>][-b <字节>][-C <字节>][-l <行数>][要切割的文件][输出文件名]　　补充说明：split可将文件切成较小的文件，预设每1000行会切成一个小文件。　...

2019-01-18 23:05:56 2374

原创干货请收好：终于有人把用户画像的流程、方法讲明白了

在日常，我们很习惯的将有相同特点特征的人群进行统一的归纳：比如“高富帅”，“白富美”……也因为有了这样的标签，构成了群体“用户画像”的一部分。　　在“大数据”火在了各行各业的今天，“用户画像”也得到了前所未有的重视。对于移动互联网来说，用户画像在产品设计、个性化运营、精准营销等众多环节担任着关键角色。1、什么是用户画像？　　用户画像的前提是一系列真实数据之上的目标群体的用户模型，即我们...

2019-01-09 17:43:16 16954 2

转载批量安装python环境以及查看python内部模块命令，内置函数，查看python已经安装的模块命令

批量安装python环境以及查看python内部模块命令，内置函数，查看python已经安装的模块命令可以用dir(modules)(1) 批量安装的python包localhost:interface_dev a6$ pip list > requirements.txt将requirements.txt文件中的Version那一列干掉，只保留包名，就可以批量安装python...

2019-01-05 16:06:14 1206 2

原创 python开发接口

目录：第一部分flask简介，第二部分简单开发get和post接口例子一、flask开发接口简介flask是一个python编写的轻量级框架，可以使用它实现一个网站或者web服务。此外，python 运用Django 开发后台接口。本文就用flask来开发一个接口。flask需要先安装再引用。pip install flask用flask开发接口的流程为：1.1、定义一个ser...

2019-01-05 15:24:55 10507 2

转载 localhost、127.0.0.1、本机ip、0.0.0.0 的区别

localhost、127.0.0.1、本机ip、0.0.0.0 的区别场景：使用flask起一个get或者post服务时，有个host属性，默认配置是0.0.0.0，这时同局域网下的其他机器可以通过本机ip访问服务，改成localhost或者127.0.0.1后就无法访问原理分析：localhost 不联网不使用网卡，不受防火墙和网卡限制本机访问 127.0.0.1 ...

2018-12-29 11:52:01 7323

转载 python读写csv文件例子

（1）最常用的一种方法，利用pandas包import pandas as pd# 任意的多组列表a = [1, 2, 3]b = [4, 5, 6]# 字典中的key值即为csv中列名dataframe = pd.DataFrame({'a_name': a, 'b_name': b})print "输出pandas结构\n",dataframe (2) 同样pan...

2018-12-26 11:43:39 1619

转载年终感慨：程序员伤不起的 30 岁

年终感慨：程序员伤不起的 30 岁程序员干到30岁，好不容易从码奴混到了白领，却再也干不动了，还时时面临失业的危险。30岁，是一个程序员伤不起的年龄。明天，何去何从？一．30岁现象在官场上，曾经有一个59岁现象，就是官员们会在59岁时，会使劲捞上一把。很明显嘛，权力过期作废，再不捞就要退休了，没有机会了。在程序员的圈子里，也有一个30岁现象。当然，如果你有铁饭碗，比如在国企或政府机关...

2018-12-25 17:56:28 229

原创关于Hive 在子查询中是否支持 IN 和 NOT IN 子句的测试

亲测有效，在hive-2.1.1版本,存储为hadoop-2.7.3下，hive支持 in或not in 中包含查询子句的语法，此外，在有些版本或hive thrift包不支持的话，也可能通过left join实现1、创建表假设有一个用户浏览商品表scan_info,和一个用户购买商品表buy_info。如下hive> create table scan_info (userI...

2018-12-15 15:31:37 6597

转载 Spark算子——RDD键值转换操作–leftOuterJoin、rightOuterJoin、subtractByKey

Spark算子——RDD键值转换操作–leftOuterJoin、rightOuterJoin、subtractByKey一、leftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)], numPartiti...

2018-12-08 12:52:28 744

HelloUDF.zip

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码，具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

2019-10-11

MacDown使用小例子

MacDown使用操作例子——`MarkDown` 是一种 **轻量级的标记语言** , 可以使用普通文本编辑器编写的语言。通过简单的标记语法，使普通的文本具有一定的格式。 `MarkDown` 的优点在于，它用简洁的语法代替了排版。而不像一般我们用的处理软件 Word 或 Pages 有大量的排版、字体设置。它使我们专注于内容的编写。

2018-05-23

使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能

通过使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能。我的课题理解：我把课题定位在学生信息管理系统：创建一个带头结点学生链表，用菜单的形式实现增删改查功能外，用采用冒泡排序实现按学生成绩由高到低排序功能，同时又实现用户登陆，用户注册验证，以及一屏连续向用户展示功能。目录：程序代码实现部分： p1----p14 实验结果部分： P15---P20 实验中遇到问题及解决方法： P21---P25 实验心得： P26

2012-08-08

运算符重载和函数重载

练习对字符串的常用操作，进而加深对类的多态性的理解：如运算符重载和函数重载字符串连接，+=运算符重载求子串: 左边几个字符，，， Left(int nCount) 右边几个，， Right(int nCount) 某个位置开始的几个字符 Mid(int nPos,int nCout) 2..进一步熟悉掌握对类的构造函数重载，拷贝构造的使用目录：程序代码实现部分： p2----p6 实验结果部分： P7 实验中遇到问题及解决方法： P7----P9 实验心得： P9

2012-08-08

停车场管理系统

本次课题描述：（1）有一个两层的停车场, 每层有6个车位, 当第一层车停满后才允许使用第二层. (停车场可用一个二维数组实现, 每个数组元素存放一个车牌号 ) 每辆车的信息包括车牌号、层号、车位号、停车时间共4项，其中停车时间按分钟计算。（2）假设停车场初始状态为第一层已经停有4辆车, 其车位号依次为1—4 , 停车时间依次为20, 15, 10 , 5 . 即先将这四辆车的信息存入文件”car.txt”中( 数组的对应元素也要进行赋值 ) 。停车操作：当一辆车进入停车场时, 先输入其车牌号, 再为它分配一个层号和一个车位号, 停车时间设为5 , 最后将新停入的汽车的信息添加文件”car.txt”中, 并将在此之前的所有车的停车时间加5。（3）收费管理(取车)：当有车离开时, 输入其车牌号, 先按其停车时间计算费用, 每5分钟0.2元. (停车费用可设置一个变量进行保存), 同时从文件”car.txt”中删除该车的信息, 并将该车对应的车位设置为可使用状态(即二维数组对应元素清零). 按用户的选择来判断是否要输出停车收费的总计。系统开发的目标是：（1）停车场内车辆信息及时汇总，随时了解停车场车位的使用情况；（2）统计车辆信息全部电脑化，提高工作效率和工作质量；（3）以停车场内的全部车辆信息为基础，由客户自主选择停车位，尽量达到车位的最高利用率；（4）停车费用的结算也由电脑来完成，解决客户所担心的乱收费问题。（5）用户可以在取车时，留下宝贵的对本次使用的评价，待管理员审核后就可以动态地显示用户界面的正上方。，

2012-08-04

csdn排名规则改了？从上一周的1700多名，在这一周断崖式下降到6400多名，这个是什么骚操作呢，大家来吐槽哈

2021-08-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人