Data_IT_Farmer-CSDN博客

转载 Spark MLlib实现的中文文本分类–Naive Bayes

关键字：spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类，在数据平台的一个典型的应用场景是，通过爬取用户浏览过的页面内容，识别出用户的浏览偏好，从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯（Naive Bayes）算法，完成对中文文本的分类过程。主要包括中文分词、文本表示（TF-IDF）、模型训练、分类预测等。中文分词对于中文文本分类而言，需要先对文章进行分词，我使用的是IKAnalyzer中

2021-06-20 18:14:21 1861

转载 spark提交任务的三种的方法

spark提交任务的三种的方法在学习Spark过程中，资料中介绍的提交Spark Job的方式主要有三种：1、使用spark 自带的spark-submit工具提交任务通过命令行的方式提交Job,使用spark 自带的spark-submit工具提交，官网和大多数参考资料都是已这种方式提交的，提交命令示例如下：./spark-submit --class com.learn.spark.SimpleApp --master yarn --deploy-mode client --driver-

2021-04-25 14:46:13 8795

转载彻底搞懂-扔鸡蛋问题-方程-动态规划

题目：2个鸡蛋，从100层楼上往下扔，以此来测试鸡蛋的硬度，比如鸡蛋在第9层没有摔碎而在第10层摔碎了，那么鸡蛋不会摔碎的零界点就是9层，如何用最少的尝试次数，测试出鸡蛋不会摔碎的临界点？最笨法：把其中一个鸡蛋从第1层开始往下扔，如果第1层没碎换到第2层扔，如果第2层没碎换到第3层扔，，，如果第59层没碎换到第60层扔，如果第60层碎了，说明不会摔碎的临界点是59层，最坏情况下需要扔100次二分法：把鸡蛋从50层往下扔，如果第一枚在50层碎了，就从第1层开始（一共只有两个鸡蛋，第一个鸡蛋

2020-06-24 17:53:15 2655 1

转载布隆过滤器+缓存穿透问题+Counting Bloom Filter，原理+案例+代码实现

概述什么是布隆过滤器布隆过滤器（Bloom Filter）是1970年由布隆提出的，它实际上是由一个很长的二进制向量和一系列随意映射函数组成。它是一种基于概率的数据结构，主要用来判断某个元素是否在集合内，它具有运行速度快（时间效率），占用内存小的优点（空间效率），但是有一定的误识别率和删除困难的问题。它能够告诉你某个元素一定不在集合内或可能在集合内。在计算机科学中，我们常常会碰到时间换空间或者空间换时间的情况，通常两者不可兼得，我们要在两者之间取舍...

2020-06-20 15:35:40 1798

原创 python使用xlwt形成合并单元格的excel并且读取合并单元格的excel

python使用xlwt形成合并单元格的excel并且读取合并单元格的excel 在日常数据报表数据处理中，经常会遇到看某个大类下面每个小类的各自的情况，此时形成的合并一些单元格作为表头的excel。在excel中，手动合并单元格比较容易，但是怎么利用python构造某些列或者行合并作为标题行或列的excel呢？废话不多说，直接上代码。1、安装python处理excel需要的包...

2019-11-12 13:25:26 8880

转载 inotifywait+rsync 实时同步脚本

相同服务器我们时常需要相同的部署，这时就需要我们能够实时的同步文件。今天我就和大家分享一个能够实现自动远程实时同步文件的方法：一、利用inotifywait对文件系统事件实时监控, 触发事件调用rsync远程同步文件至一台或多台服务器接下来说说我们需要使用到的工具：1、rsync一个远程数据同步工具，可通过LAN/WAN快速同步多台主机间的文件。rsync使用所谓...

2019-07-23 22:03:11 1661

转载【超级有用】大数据的压缩格式

为什么map端用snappy压缩格式；而reduce用gzip或者bzip2的压缩格式呢？为什么每个reduce端压缩后的数据不要超过一个block的大小呢？检查Hadoop版本的压缩格式是否可用【我在Hadoop cdh 5.7版本中查看Hadoop压缩格式】$ hadoop version$ hadoop checknative一、在解答上述问题以前，我们先...

2019-07-18 10:30:59 999 1

转载【python可视化系列】python数据可视化利器--pyecharts

前言echarts是什么？下面是来自官方的介绍： ECharts，缩写来自Enterprise Charts，商业级数据图表，Echarts 是百度开源的一个数据可视化纯Javascript(JS) 库。主要用于数据可视化，可以流畅的运行在PC和移动设备上，兼容当前绝大部分浏览器（IE6/7/8/9/10/11，chrome，firefox，Safari等），底层依赖轻量级的Canvas类库ZRe...

2018-06-17 17:18:33 16261

原创 Hbase表两种数据备份方法-导入和导出示例

Hbase表数据导入和导出示例场合：由于线上和测试环境是分离的，无法在测试环境访问线上库，所以需要将线上的hbase表导出一部分到测试环境中的hbase表，这就是本文的由来。本文借助hdfs作为中介将线上的hbase数据导出部分到测试hbase表中。闲话少叙，例子就来：1）、创建hbase表emplocalhost:bin a6$ pwd/Users/a6/Applications/hbase-...

2018-05-15 17:39:46 21965 6

转载前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍

前向传播算法(Forward propagation)与反向传播算法(Back propagation)以及sigmoid函数介绍虽然学深度学习有一段时间了，但是对于一些算法的具体实现还是模糊不清，用了很久也不是很了解。因此特意先对深度学习中的相关基础概念做一下总结。先看看前向传播算法(Forward propagation)与反向传播算法(Back propagation)，sigmoid函数...

2018-04-09 11:42:14 3079

转载 hive 动态分区(Dynamic Partition)异常处理

hive 动态分区(Dynamic Partition)异常处理Changing Hive Dynamic Partition LimitsSymptoms:Hive enforces limits on the number of dynamic partitions that it creates. The default is 100 dynamic partitions per nod...

2018-03-27 11:43:30 5287

原创 mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案

mysql出现ERROR : (2006, 'MySQL server has gone away') 原因和解决方案这种情况可以通过修改max_allowed_packed的配置参数来避免，也可以在程序中将数据分批插入(使用mysql limit进行分页，循环分批处理数据)

2017-09-27 20:28:45 86224 3

原创 python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql

python 使用mysqldb模块通过SSHTunnelForwarder隧道连接mysql出于安全考虑，数据库服务器只允许堡垒机通过ssh访问，这对日常的使用带来了麻烦。昨天的工作中，就遇到了这样的问题，MySQL数据库放在了服务器A上，只允许服务器B来访问，而我在机器C上，可以通过ssh连接服务器B。为了解决在机器C上连接mysql这个问题sshtunnel官方使用例子，请参照例子：

2017-09-05 13:21:34 11453

原创【python Excel】如何使用python将大量数据导出到Excel中的小技巧之一

如何使用python将大量数据导出到Excel中的小技巧python Excel相关的操作的module lib有两组，一组是xlrd、xlwt、xlutils，另一组是openpyxl,但是前一组（xlrd，xlwt）比较老，只能处理由Excel 97-2003 或者Excel 97 以前版本生成的xls格式的excel文件， xlwt甚至不支持07版以后的excel ，这个格式excel文件一般来说，最大只能支持256列或者65536行的excel文件。因此面对需要导出大量数据到excel的情况，

2017-09-05 12:24:25 60151

原创 Hive collect_set()、collect_list()列转行，并对转换后的行值排序

Hive collect_set()、collect_list()列转行，和concat_ws()使用，并对转换后的行值排序

2024-01-30 18:17:21 2054

原创 Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据类型不兼容报错解决

Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据，但部分doris类型spark doris connector不兼容报错解决方案 .spark.exception.ConnectedFailedException: Connect to Doris BE{host='172.xxx.yyyy.10', port=9060}failed.

2024-01-12 20:34:46 1617

原创 hive和spark-sql中日期和时间相关函数测试对比

hive和spark-sql中日期和时间相关函数测试对比

2023-11-12 11:21:40 1884

原创 Gogs安装和部署教程-centos上

Gogs 是一款极易搭建的自助 Git 服务。Gogs安装和部署教程-centos上

2023-11-11 15:22:52 3903

转载 hive有经典的列转行，但行转列也不应该忽略

hive有经典的列转行，但行转列也不应该忽略

2023-11-10 23:05:34 262

转载 free -h详解与内存swap理解

free -h详解与内存swap理解

2023-10-22 23:41:36 5382

原创 hive和presto的求数组长度函数区别及注意事项

hive和presto的求数组长度函数区别及注意事项

2023-10-19 15:34:15 1740

原创 hive建表指定列分隔符为多字符分隔符实战(默认只支持单字符)

Hive多字符的列分隔符支持示例，清洗入hive表的过程中，发现字段之间的单一字符的分割符号已经不能满足列分割需求，因为字段值本身可能包含分隔符。

2023-10-10 16:27:12 2898

原创和subline快捷键冲突：win10按快捷键ctrl+shift+L会显示“性能录制已开始”，怎么把这个快捷键关掉？

和subline快捷键冲突：win10按快捷键ctrl+shift+L会显示“性能录制已开始”，怎么把这个快捷键关掉？

2023-09-24 20:03:26 3734

转载 Hive中SQL通配符like与正则匹配rlike(regexp)的区别

Hive 中可以用 like 和 rlike 进行模糊匹配，like 采用的是 SQL 通配符，而 rlike (regexp)采用的是正则匹配。

2023-04-15 16:51:13 3551 1

转载 windows10上安装mysql 5.7.37

windows10上安装mysql 5.7.37，及可视化客户端Navicat安装

2023-03-06 15:12:25 757

转载 shell脚本中用hive -e执行sql出现「cannot recognize input near ‘＜EOF＞‘ in select clause」问题

1、shell脚本中用hive -e执行sql出现「cannot recognize input near ‘＜EOF＞‘ in select clause」问题2、解决方案修改hive -e ${sql}为hive -e "${sql}"3、原因分析若没有使用双引号进行包括，则"hive -e"会认为后面的sql内容解析为多个参数造成错误。而使用双引号后，整个sql将作为一个单独的参数传给hive。

2022-11-09 10:22:36 2909

原创 python中list 转set和tuple遇到的坑和 python占位符使用

python中list 转set和tuple遇到的坑和 python占位符使用

2022-11-08 17:19:30 840

转载 hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例

hive表生成函数explode、stack、lateral view和json_tuple、parse_url_tuple示例

2022-11-08 14:23:42 3022 1

转载 hive分箱函数ntile()使用案例

ntile()函数的作用是等频分箱，把观测值进行有序排列（默认升序），根据观测值的总个数等分为k部分，每部分当作一个分箱，即百分位数的概念，可以根据箱号选取前或后n分之几的数据。

2022-11-07 20:39:40 2028

转载 Callable和Runnable的区别（面试常考），看完就懂

Callable和Runnable的区别

2022-08-30 17:29:45 244

转载 JAVA客户端与服务端demo

java 服务端和客户端连接demo

2022-08-30 11:31:20 766

转载 linux expect远程自动登录以及执行命令

1、什么是expect?在做系统管理时，我们很多时候需要输入密码，例如：连接 ssh,连接ftp,那么如何能做到不输入密码吗？ssh远程登录一台主机后，会在know_hosts中新增1条记录，下次再登录时就不用输入用户名密码。但是有一个问题，如果我需要在100台新机器上登录，那就需要输入100次用户名密码，这之后才不用输入，这太麻烦了，因此就用到了expect来解决。我们需要有一个工具，能代替我们实现与终端的交互，那么，就是它：expect，管理员的最好的朋友之一，通过expect将代码分发至

2021-12-03 15:42:38 4167

转载 hive 和 spark-sql 如何写SQL求出中位数平均数和众数（count 之外的方法)

1、概念介绍平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点，能够从不同的角度提供信息。平均数特点：计算用到所有的数据，它能够充分利用数据提供的信息，它具有优秀的数学性质，因此在实际应用中较为广泛。但它受极端值的影响较大。应用场合：没有极端值的情况下数据集中趋势的刻画。如：小明五次测试的成绩为87、88、89、93、94你认为小明这五次测试成绩怎样？...

2021-11-24 10:27:15 7554 1

转载 Spark DataFrame 的窗口函数使用的两种形式介绍

1、概述上文介绍了sparkdataframe常用操作算子。除此外，spark还有一类操作比较特别——窗口函数。窗口函数常多用于sql，spark sql也集成了，同样，spark dataframe也有这种函数，spark sql的窗口函数与spark dataframe的写法不太一样。1.1、spark sql 写法select pcode,event_date,sum(duration) over (partition by pcode order by event_date as.

2021-07-27 13:34:24 3582

转载 shell 数组及其遍历的3种方法

1、shell数组1.1、数组概述数组中可以存放多个值。Bash Shell 只支持一维数组（不支持多维数组），初始化时不需要定义数组大小（与 PHP 类似）。与大部分编程语言类似，数组元素的下标由0开始。Shell 数组用括号来表示，元素用”空格”符号分割开，语法格式如下：array_name=(value1 value2 … valuen)例如：my_array=(A B “C” D)我们也可以使用下标来定义数组:array_name[0]=value0array_na

2021-07-15 11:41:07 51214 3

转载 Spark机器学习API之特征处理

关键字：spark、机器学习、特征处理、特征选择Spark机器学习库中包含了两种实现方式，一种是spark.mllib，这种是基础的API，基于RDDs之上构建，另一种是spark.ml，这种是higher-level API，基于DataFrames之上构建，spark.ml使用起来比较方便和灵活。Spark机器学习中关于特征处理的API主要包含三个方面：特征提取、特征转换与特征选择。本文通过例子介绍和学习Spark.ml中提供的关于特征处理API中的特征选择（Feature Selectors）

2021-06-20 20:31:42 425

转载获取本季度上季度的时间_hive时间函数应用小例

1. 获取当前时间：yyyy-mm-ddSELECT CURRENT_DATE;current_date()2021-06-17Time taken: 0.077 seconds, Fetched 1 row(s)2. 获取当月第一天时间：yyyy-mm-ddselect date_sub(current_date,dayofmonth(current_date)-1);date_sub(current_date(), (dayofmonth(current_date()) - 1

2021-06-17 21:25:14 3316

转载 HiveSQL/SparkSQL的 round() 、floor()和 ceil()的用法

HiveSQL/SparkSQL的 round() 、floor()和 ceil()的用法1、概述round四舍五入floor 取左值ceil 取右值2、在SparkSQL中的示例spark版本：spark-2.3.4Hive client (version 1.2.2)spark-sql> select round(1.2356);1Time taken: 0.788 seconds, Fetched 1 row(s)spark-sql> ...

2021-04-30 20:11:29 7368 1

转载 SparkSQL—最大连续登录天数、当前连续登录天数、最大连续未登录天数问题

Hive SQL——最大连续登录天数、当前连续登录天数、最大连续未登录天数问题1、数据准备表字段：用户、新增日期、活跃日期原数据表：user_active表1.1、测试数据：比较date和timestamp类型CREATE TABLE test_user_active( name string, install_date timestamp, active_date timestamp);insert overwrite table test_user_act.

2021-04-26 13:23:31 2148

转载 linux服务器的物理CPU，CPU核数，逻辑CPU及Hadoop的Vcore

linux服务器的物理CPU，CPU核数，逻辑CPU及Hadoop的Vcore1、Linux服务器的核数的概念物理CPU：服务器上真实存在的CPU，可以看到CPU的核 (core)：一个CPU上包含多少核(core)，真实存在但不能直接看到总核数 = 物理CPU个数 X 每颗物理CPU的核数总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数在没有开启超线程时，总核数 = 总逻辑CPU个数，如果开启超线程，则总核数 < 总逻辑CPU

2021-04-17 15:28:49 2207

HelloUDF.zip

Hive 自定义函数UDF开发手把手教程—— 创建临时函数和永久函数代码，具体创建过程参考https://blog.csdn.net/helloxiaozhe/article/details/102498567

2019-10-11

MacDown使用小例子

MacDown使用操作例子——`MarkDown` 是一种 **轻量级的标记语言** , 可以使用普通文本编辑器编写的语言。通过简单的标记语法，使普通的文本具有一定的格式。 `MarkDown` 的优点在于，它用简洁的语法代替了排版。而不像一般我们用的处理软件 Word 或 Pages 有大量的排版、字体设置。它使我们专注于内容的编写。

2018-05-23

使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能

通过使用指针，进一步熟悉链表操作，实现添加，删除，修改，查找，排序等功能。我的课题理解：我把课题定位在学生信息管理系统：创建一个带头结点学生链表，用菜单的形式实现增删改查功能外，用采用冒泡排序实现按学生成绩由高到低排序功能，同时又实现用户登陆，用户注册验证，以及一屏连续向用户展示功能。目录：程序代码实现部分： p1----p14 实验结果部分： P15---P20 实验中遇到问题及解决方法： P21---P25 实验心得： P26

2012-08-08

运算符重载和函数重载

练习对字符串的常用操作，进而加深对类的多态性的理解：如运算符重载和函数重载字符串连接，+=运算符重载求子串: 左边几个字符，，， Left(int nCount) 右边几个，， Right(int nCount) 某个位置开始的几个字符 Mid(int nPos,int nCout) 2..进一步熟悉掌握对类的构造函数重载，拷贝构造的使用目录：程序代码实现部分： p2----p6 实验结果部分： P7 实验中遇到问题及解决方法： P7----P9 实验心得： P9

2012-08-08

停车场管理系统

本次课题描述：（1）有一个两层的停车场, 每层有6个车位, 当第一层车停满后才允许使用第二层. (停车场可用一个二维数组实现, 每个数组元素存放一个车牌号 ) 每辆车的信息包括车牌号、层号、车位号、停车时间共4项，其中停车时间按分钟计算。（2）假设停车场初始状态为第一层已经停有4辆车, 其车位号依次为1—4 , 停车时间依次为20, 15, 10 , 5 . 即先将这四辆车的信息存入文件”car.txt”中( 数组的对应元素也要进行赋值 ) 。停车操作：当一辆车进入停车场时, 先输入其车牌号, 再为它分配一个层号和一个车位号, 停车时间设为5 , 最后将新停入的汽车的信息添加文件”car.txt”中, 并将在此之前的所有车的停车时间加5。（3）收费管理(取车)：当有车离开时, 输入其车牌号, 先按其停车时间计算费用, 每5分钟0.2元. (停车费用可设置一个变量进行保存), 同时从文件”car.txt”中删除该车的信息, 并将该车对应的车位设置为可使用状态(即二维数组对应元素清零). 按用户的选择来判断是否要输出停车收费的总计。系统开发的目标是：（1）停车场内车辆信息及时汇总，随时了解停车场车位的使用情况；（2）统计车辆信息全部电脑化，提高工作效率和工作质量；（3）以停车场内的全部车辆信息为基础，由客户自主选择停车位，尽量达到车位的最高利用率；（4）停车费用的结算也由电脑来完成，解决客户所担心的乱收费问题。（5）用户可以在取车时，留下宝贵的对本次使用的评价，待管理员审核后就可以动态地显示用户界面的正上方。，

2012-08-04

csdn排名规则改了？从上一周的1700多名，在这一周断崖式下降到6400多名，这个是什么骚操作呢，大家来吐槽哈

2021-08-03

TA创建的收藏夹 TA关注的收藏夹

TA关注的人