不加班程序员-CSDN博客

原创通过Spark向Kafka写入数据

1、·将KafkaProducer利用lazy val的方式进行包装package cn.com.m.utilimport java.util.concurrent.Futureimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) ext

2020-11-09 13:59:19 2671

原创 xshell Hbase shell 输入无法使用退格键删除解决办法

使用Ctrl + Backspace

2020-10-13 17:36:56 493

转载 pandas中DataFrame的连接操作：join

pandas中的DataFrame变量的join连接总是记不住，在这里做一个小结，参考资料是官方文档。pandas.DataFrame.joinDataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)通过索引或者指定的列连接两个DataFrame。通过一个list可以一次高效的连接多个DataFrame。参数说明other:【DataFrame，或者带有名字的Series，或者DataFram

2020-09-29 15:15:31 4602

转载【推荐系统】基于用户的协同过滤算法（UserCF）的python实现

1.数据集MovieLensMovieLens数据集包含多个用户对多部电影的评级数据，也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统，机器学习算法的测试数据集。尤其在推荐系统领域.数据集的下载地址为：http://files.grouplens.org/datasets/movielens/，有好几种版本，对应不同数据量，本文所用的数据为ml-latest-small.zip。本文主要使用其中ratings.csv、movies.csv两个数据表：ratings数据userId:

2020-09-28 15:37:11 2004

转载 jieba分词算法总结

jieba分词算法总结特点：支持三种分词模式 –精确模式，试图将句子最精确地切开，适合文本分析; –全模式，把句子中所有的可以成词的词语都扫描出来，速度非常快，但不能解决歧义; –搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典使用： -安装或者将jieba目录放在当前目录或者site-packages目录算法： -基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG） -

2020-09-27 11:09:27 838

原创 Python日常使用相关操作

d = {'one':5,'two':6,'three':3}sorted(d.items(), key=lambda x:x[1], reverse = True)自定义一个字典d,按照value从大到小排序，如果对key排序,用x[0];默认的是从小到大排序,如果是从大到小,需要用reverse = True.注意返回的是一个List,不再是Dict....

2020-09-08 17:32:23 282

转载 sklearn之train_test_split()函数各参数含义

sklearn之train_test_split()函数各参数含义在机器学习中，我们通常将原始数据按照比例分割为“测试集”和“训练集”，从 sklearn.model_selection 中调用train_test_split 函数简单用法如下：X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_stat

2020-08-31 11:53:30 1050

原创 Word2Vec参数说明

def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean.

2020-07-29 11:00:37 3013

原创 awk根据某列进行过滤

awk -F ',' '$6=="山东"{print $6}' W20112701831574791524466.csv | wc -lcsv文件中第6列为山东的行数

2020-05-26 16:10:22 3054

原创 IDEA大小写切换快捷键

Ctrl+Shift+U

2020-03-30 10:43:13 1032

原创 python pip更新到最新版本

python -m pip install --upgrade pip用该命令将pip更新到最新版本。

2020-03-09 14:09:54 2946

转载十五个点，理解Apache Kafka

一、介绍Kafka在世界享有盛名，大部分互联网公司都在使用它，那么它到底是什么呢? Kafka由LinkedIn公司于2011年推出，自那时起功能逐步迭代，目前演变成一个完整的平台级产品，它允许您冗余地存储巨大的数据量，拥有一个具有巨大吞吐量(数百万/秒)的消息总线，并且支持实时流任务处理。总的来说，Kafka是一个分布式，可水平扩展，容错的日志提交系统这些...

2020-03-04 17:02:33 469 1

转载 kafka架构与原理

1、简介它可以让你发布和订阅记录流。在这方面，它类似于一个消息队列或企业消息系统。它可以让你持久化收到的记录流，从而具有容错能力。首先，明确几个概念：• Kafka运行在一个或多个服务器上。• Kafka集群分类存储的记录流被称为主题(Topics)。• 每个消息记录包含一个键，一个值和时间戳。Kafka有四个核心API：• 生产者 API 允许应用程序发布记录流至一个或多个Kaf...

2020-03-04 16:51:55 429

转载 Spark中Accumulator的使用

Accumulator简介Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spark web ui中显示，可以帮助你了解程序运行的情况。Accumulator使用使用示例举...

2019-05-05 10:34:23 1446

转载 Spark持久化&检查点

1.持久化Spark持久化过程包括persist、cache、upersist3个操作 /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) ...

2019-04-23 16:44:19 483

原创 Spark RDD基本转换

union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单，就是将两个RDD进行合并，不去重。scala> var rdd1 = sc.makeRDD(Seq(1,2,2,3))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollection...

2019-04-17 10:39:48 264

原创 linux安装pymysql

1. 下载离线安装包:地址为：https://pypi.doubanio.com/simple/pymysql/下载指定版本，这里下载的为PyMySQL-0.7.11.tar.gz2.解压离线包:首先将压缩包放到指定位置，执行解压命令：tar -zxvf PyMySQL-0.7.11.tar.gz3.安装:进入PyMySQL-0.7.11cd PyMySQL-0.7.1...

2019-04-16 16:22:47 6103

转载 spark scala 对dataframe进行过滤----filter方法使用

val df = sc.parallelize(Seq(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))).toDF("id", "num")对整数类型过滤逻辑运算符：>, <, ===df.filter($"num"===2)df.filter($"num">2)df.filter($"num"<2)或者d...

2019-04-04 17:23:10 11592

转载 Flume中的HDFS Sink配置

Flume中的HDFS Sink配置参数说明type：hdfspath：hdfs的路径，需要包含文件系统标识，比如：hdfs://namenode/flume/webdata/filePrefix：默认值：FlumeData，写入hdfs的文件名前缀fileSuffix：写入 hdfs 的文件名后缀，比如：.lzo .log等。inUsePrefix：临时文件的文件名前缀...

2019-04-03 15:29:55 829 1

原创 linux安装azkaban

准备mkdir-p/opt/apps/azkabancd /opt/apps/azkabanrz 上传azkaban-web-server-2.5.0.tar.gz，azkaban-executor-server-2.5.0.tar.gzazkaban-sql-script-2.5.0.tar.gztar -zxvf azkaban-web-server-2....

2019-01-18 15:08:41 440

原创 centos6安装mysql5.5

删除原有mysql# rpm -qa |grep mysql //查看原有mysql存在类似如下：qt-mysql-4.6.2-26.el6_4.x86_64mysql-connector-odbc-5.1.5r1144-7.el6.x86_64mysql-libs-5.1.71-1.el6.x86_64mysql-5.1.71-1.el6.x86_64mysql-...

2019-01-18 14:55:08 440

原创 centos6安装CDH5.7.4

下载的包有如下几个：CDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcelCDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcel.shamanifest.jsoncloudera-manager-el6-cm5.7.4_x86_64.tar.gzmysql-connector-java-5.1.38.jar下载地址如下：CDH下载...

2019-01-18 13:37:14 498

转载 Redis Cluster集群

Redis Cluster集群一、redis-cluster设计Redis集群搭建的方式有多种，例如使用zookeeper等，但从redis 3.0之后版本支持redis-cluster集群，Redis-Cluster采用无中心结构，每个节点保存数据和整个集群状态,每个节点都和其他所有节点连接。其redis-cluster架构图如下：其结构特点：&nbs...

2018-11-21 13:42:00 256

转载 Hive自定义UDF函数

Hive自定义UDF函数以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类. 可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):&lt;dependency&gt; &lt;groupId&gt;org.apache.hive&lt...

2018-08-03 14:36:36 348

转载 Spark Yarn-cluster与Yarn-client

Spark Yarn-cluster与Yarn-client 摘要在Spark中，有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上，通常Yarn-Cluster适用于生产环境，而Yarn-Clientr更适用于交互，调试模式，以下是...

2018-07-31 11:28:20 354

转载 Scala伴生类和伴生对象

Scala伴生类和伴生对象单例对象与类同名时，这个单例对象被称为这个类的伴生对象，而这个类被称为这个单例对象的伴生类。伴生类和伴生对象要在同一个源文件中定义，伴生对象和伴生类可以互相访问其私有成员。不与伴生类同名的单例对象称为孤立对象。看看例子：?123456789101112131415161718192021222324252627...

2018-07-31 10:49:13 446

转载 Storm入门原理

storm 入门原理介绍 1.hadoop有master与slave，Storm与之对应的节点是什么？2.Storm控制节点上面运行一个后台程序被称之为什么？3.Supervisor的作用是什么？4.Topology与Worker之间的关系是什么？5.Ni...

2018-07-26 16:55:34 387

原创 Spark之 cache()和persist()

× Spark之cache()和persist() SuperBoy_Liang RDD的持久化也就是说假如我们从hdfs读取文件，形成RDD。当我们对RDD进行持久化操作之后，，然后再针对该R...

2018-07-23 17:22:53 401

转载 Spark之DataFrame操作大全

Spark&nbsp;Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作，在DataFrame中都可以通过调用其API接口来实现。可以参考，Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成　　Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hiv...

2018-07-23 17:01:31 5570

转载 Spark之reduceByKey与GroupByKey

Spark中针对键值对类型的RDD做各种操作比较常用的两个方法就是ReduceByKey与GroupByKey方法，下面从源码里面看看ReduceByKey与GroupByKey方法的使用以及内部逻辑。官方源码解释：三种形式的reduceByKey总体来说下面三种形式的方法备注大意为：根据用户传入的函数来对...

2018-07-23 16:53:29 923

原创 python 通过国内镜像使用pip安装工具包

国内镜像使用pip

2017-08-17 17:37:34 911

原创 Centos7 通过yum安装pip

前几天用Python作了一些数据处理，觉得Python在分析数据方面很有优势，于是决定在服务器上用Python做一些测试。Python的一个优点就是有着丰富的库，它们能处理大多数的常见问题，安装这些库也比较简单，通过pip命令就能安装，然后就能直接使用。一般自带的python都为2.7版本。 Pip命令不识别，说明机器上并没有安装pip。首先安装epel扩展源：sudo yum -y

2017-08-16 11:11:58 9162

原创通过itchat创建图灵机器人实现微信自动回复

微信自动回复

2017-08-03 14:01:57 3123 2

原创 map与flatmap区别

map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素，将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 Spark 中 map函数会对每一条输入进行指定的操作，然后为每一条输入返回一个对象； - 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”：操作1：同map函数一样：

2017-08-01 17:25:47 817

原创 Word2Vec提取关键词，词语相似度

对于了解深度学习、自然语言处理NLP的读者来说，Word2Vec可以说是家喻户晓的工具，尽管不是每一个人都用到了它，但应该大家都会听说过它——Google出品的高效率的获取词向量的工具。说到提取关键词，一般会想到TF-IDF和TextRank，大家是否想过，Word2Vec还可以用来提取关键词？而且，用Word2Vec提取关键词，已经初步含有了语义上的理解，而不仅仅是简单的统计了，而且还是无监督

2017-08-01 17:06:23 7913 1

原创 python将dateframe数据存入mysql

import pymysql.cursorsimport pandas as pdconn= pymysql.connect(host='192.168.0.119',port=3306,user='root',passwd='root', db='anjian', chars

2017-08-01 15:51:37 4214

原创 MySQL中常见的字符串处理函数

ASCII(char) 　　　　返回字符的ASCII码值SELECT ASCII('a')CONCAT(s1,s2…,sn)　　　　将s1,s2…,sn连接成字符串（oracle只支持两个字符串连接）SELECT CONCAT("super","star","!")INSERT(str,x,y,instr) 　　将字符串str从第x位置开始，y个字符长的子串替换为字符串instr，返回结果

2017-07-29 16:01:25 610

原创 SBCSDN-mysql中sfz号升级

转换规则大致为将15位中的6位出生日期改为8位，即在原十五位数身份证的第六位数后面插入19 ，这样身份证号就成为了17位。最后一位为校验码，是通过前面17位计算得到的。校验码计算方法：将身份证前十七位数分别乘以不同系数，从第一至十七位的系数分别为7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2，将这十七位数字和系数相乘的结果相加，用加出来的和除以11，看看余数是多少。余数只可能

2017-07-29 15:23:17 5099

转载 Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解

Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解转载请务必加上原作者：铭毅天下，原博客地址：http://blog.csdn.net/laoyang360目录(?)[+]ES540安装包下载地址Centos67 Elasticsearch540安装Head插件安装Kibana安装lo

2017-07-29 11:31:11 1249

原创 MySQL中的字符串连接方法

concat系列函数以该表为原始表进行举例 concat函数为将字符串进行拼接select concat(num,name) as newcol from testtable 当需要指定连接符号时可通过concat_ws函数进行指定使用方法： CONCAT_WS(separator,str1,str2,…)select concat_ws(':',num,name) as newcol

2017-07-29 11:23:27 2035

2016年新闻中文文本.txt

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体，含标题、关键词、描述、正文。数据集划分：数据去重并分成三个部分。训练集：243万；验证集：7.7万；测试集，数万，不提供下载。可能的用途：可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；亦可以通过新闻渠道区分出新闻的类型。

2020-07-30

clickhouse实践

包含clickhouse相关描述，优缺点描述，安装教程，使用方式，以及现阶段在其他企业的使用情况和应用场景。列举了适用场景和不适用场景，可根据实际情况来判断是否需要使用该组件。描述了为什么要从其他组件迁移到clickhouse的相关原因。

2023-04-06

ZooInspector.zip

zookeeper链接工具，在windows系统上运行，界面化查看zk连接信息，运行脚本位置在build中，双击执行zhixing.bat即可

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人