自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SuperBoy_Liang的博客

多为自己在平时工作中总结

  • 博客(81)
  • 资源 (2)
  • 收藏
  • 关注

原创 通过Spark向Kafka写入数据

1、·将KafkaProducer利用lazy val的方式进行包装package cn.com.m.utilimport java.util.concurrent.Futureimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) ext

2020-11-09 13:59:19 2671

原创 xshell Hbase shell 输入无法使用退格键删除解决办法

使用Ctrl + Backspace

2020-10-13 17:36:56 493

转载 pandas中DataFrame的连接操作:join

pandas中的DataFrame变量的join连接总是记不住,在这里做一个小结,参考资料是官方文档。pandas.DataFrame.joinDataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)通过索引或者指定的列连接两个DataFrame。通过一个list可以一次高效的连接多个DataFrame。参数说明other:【DataFrame,或者带有名字的Series,或者DataFram

2020-09-29 15:15:31 4602

转载 【推荐系统】基于用户的协同过滤算法(UserCF)的python实现

1.数据集MovieLensMovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域.数据集的下载地址为:http://files.grouplens.org/datasets/movielens/,有好几种版本,对应不同数据量,本文所用的数据为ml-latest-small.zip。本文主要使用其中ratings.csv、movies.csv两个数据表:ratings数据userId:

2020-09-28 15:37:11 2004

转载 jieba分词算法总结

jieba分词算法总结特点: 支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典 使用: -安装或者将jieba目录放在当前目录或者site-packages目录 算法: -基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) -

2020-09-27 11:09:27 838

原创 Python日常使用相关操作

d = {'one':5,'two':6,'three':3}sorted(d.items(), key=lambda x:x[1], reverse = True)自定义一个字典d,按照value从大到小排序,如果对key排序,用x[0];默认的是从小到大排序,如果是从大到小,需要用reverse = True.注意返回的是一个List,不再是Dict....

2020-09-08 17:32:23 282

转载 sklearn之train_test_split()函数各参数含义

sklearn之train_test_split()函数各参数含义在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数 简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_stat

2020-08-31 11:53:30 1050

原创 Word2Vec参数说明

def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean.

2020-07-29 11:00:37 3013

原创 awk根据某列进行过滤

awk -F ',' '$6=="山东"{print $6}' W20112701831574791524466.csv | wc -lcsv文件中第6列为山东的行数

2020-05-26 16:10:22 3054

原创 IDEA大小写切换 快捷键

Ctrl+Shift+U

2020-03-30 10:43:13 1032

原创 python pip更新到最新版本

python -m pip install --upgrade pip用该命令将pip更新到最新版本。

2020-03-09 14:09:54 2946

转载 十五个点,理解Apache Kafka

一、介绍Kafka在世界享有盛名,大部分互联网公司都在使用它,那么它到底是什么呢?   Kafka由LinkedIn公司于2011年推出,自那时起功能逐步迭代,目前演变成一个完整的平台级产品,它允许您冗余地存储巨大的数据量,拥有一个具有巨大吞吐量(数百万/秒)的消息总线,并且支持实时流任务处理。总的来说,Kafka是一个分布式,可水平扩展,容错的日志提交系统这些...

2020-03-04 17:02:33 469 1

转载 kafka架构与原理

1、简介它可以让你发布和订阅记录流。在这方面,它类似于一个消息队列或企业消息系统。它可以让你持久化收到的记录流,从而具有容错能力。首先,明确几个概念:• Kafka运行在一个或多个服务器上。• Kafka集群分类存储的记录流被称为主题(Topics)。• 每个消息记录包含一个键,一个值和时间戳。Kafka有四个核心API:• 生产者 API 允许应用程序发布记录流至一个或多个Kaf...

2020-03-04 16:51:55 429

转载 Spark中Accumulator的使用

Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使用使用示例举...

2019-05-05 10:34:23 1446

转载 Spark持久化&检查点

1.持久化Spark持久化过程包括persist、cache、upersist3个操作 /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) ...

2019-04-23 16:44:19 483

原创 Spark RDD基本转换

union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。scala> var rdd1 = sc.makeRDD(Seq(1,2,2,3))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollection...

2019-04-17 10:39:48 264

原创 linux安装pymysql

1. 下载离线安装包:地址为:https://pypi.doubanio.com/simple/pymysql/下载指定版本,这里下载的为PyMySQL-0.7.11.tar.gz2.解压离线包:首先将压缩包放到指定位置,执行解压命令:tar -zxvf PyMySQL-0.7.11.tar.gz3.安装:进入PyMySQL-0.7.11cd PyMySQL-0.7.1...

2019-04-16 16:22:47 6103

转载 spark scala 对dataframe进行过滤----filter方法使用

val df = sc.parallelize(Seq(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))).toDF("id", "num")对整数类型过滤逻辑运算符:>, <, ===df.filter($"num"===2)df.filter($"num">2)df.filter($"num"<2)或者d...

2019-04-04 17:23:10 11592

转载 Flume中的HDFS Sink配置

Flume中的HDFS Sink配置参数说明type:hdfspath:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/filePrefix:默认值:FlumeData,写入hdfs的文件名前缀fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等。inUsePrefix:临时文件的文件名前缀...

2019-04-03 15:29:55 829 1

原创 linux安装azkaban

准备mkdir-p/opt/apps/azkabancd /opt/apps/azkabanrz 上传azkaban-web-server-2.5.0.tar.gz,azkaban-executor-server-2.5.0.tar.gzazkaban-sql-script-2.5.0.tar.gztar -zxvf azkaban-web-server-2....

2019-01-18 15:08:41 440

原创 centos6安装mysql5.5

删除原有mysql# rpm -qa |grep mysql   //查看原有mysql存在类似如下:qt-mysql-4.6.2-26.el6_4.x86_64mysql-connector-odbc-5.1.5r1144-7.el6.x86_64mysql-libs-5.1.71-1.el6.x86_64mysql-5.1.71-1.el6.x86_64mysql-...

2019-01-18 14:55:08 440

原创 centos6安装CDH5.7.4

下载的包有如下几个:CDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcelCDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcel.shamanifest.jsoncloudera-manager-el6-cm5.7.4_x86_64.tar.gzmysql-connector-java-5.1.38.jar下载地址如下:CDH下载...

2019-01-18 13:37:14 498

转载 Redis Cluster集群

Redis Cluster集群 一、redis-cluster设计Redis集群搭建的方式有多种,例如使用zookeeper等,但从redis 3.0之后版本支持redis-cluster集群,Redis-Cluster采用无中心结构,每个节点保存数据和整个集群状态,每个节点都和其他所有 节点连接。其redis-cluster架构图如下:其结构特点:&nbs...

2018-11-21 13:42:00 256

转载 Hive自定义UDF函数

Hive自定义UDF函数以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类. 可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):&amp;lt;dependency&amp;gt; &amp;lt;groupId&amp;gt;org.apache.hive&amp;lt...

2018-08-03 14:36:36 348

转载 Spark Yarn-cluster与Yarn-client

Spark Yarn-cluster与Yarn-client 摘要在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-Cluster适用于生产环境,而Yarn-Clientr更适用于交互,调试模式,以下是...

2018-07-31 11:28:20 354

转载 Scala伴生类和伴生对象

Scala伴生类和伴生对象 单例对象与类同名时,这个单例对象被称为这个类的伴生对象,而这个类被称为这个单例对象的伴生类。伴生类和伴生对象要在同一个源文件中定义,伴生对象和伴生类可以互相访问其私有成员。不与伴生类同名的单例对象称为孤立对象。看看例子:?123456789101112131415161718192021222324252627...

2018-07-31 10:49:13 446

转载 Storm入门原理

storm 入门原理介绍 1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Ni...

2018-07-26 16:55:34 387

原创 Spark之 cache()和persist()

× Spark之cache()和persist() SuperBoy_Liang RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后,,然后再针对该R...

2018-07-23 17:22:53 401

转载 Spark之DataFrame操作大全

Spark&amp;nbsp;Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成  Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hiv...

2018-07-23 17:01:31 5570

转载 Spark之reduceByKey与GroupByKey

Spark中针对键值对类型的RDD做各种操作比较常用的两个方法就是ReduceByKey与GroupByKey方法,下面从源码里面看看ReduceByKey与GroupByKey方法的使用以及内部逻辑。官方源码解释:三种形式的reduceByKey总体来说下面三种形式的方法备注大意为: 根据用户传入的函数来对...

2018-07-23 16:53:29 923

原创 python 通过国内镜像使用pip安装工具包

国内镜像使用pip

2017-08-17 17:37:34 911

原创 Centos7 通过yum安装pip

前几天用Python作了一些数据处理,觉得Python在分析数据方面很有优势,于是决定在服务器上用Python做一些测试。Python的一个优点就是有着丰富的库,它们能处理大多数的常见问题,安装这些库也比较简单,通过pip命令就能安装,然后就能直接使用。一般自带的python都为2.7版本。 Pip命令不识别,说明机器上并没有安装pip。 首先安装epel扩展源:sudo yum -y

2017-08-16 11:11:58 9162

原创 通过itchat创建图灵机器人实现微信自动回复

微信自动回复

2017-08-03 14:01:57 3123 2

原创 map与flatmap区别

map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; - 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:

2017-08-01 17:25:47 817

原创 Word2Vec提取关键词,词语相似度

对于了解深度学习、自然语言处理NLP的读者来说,Word2Vec可以说是家喻户晓的工具,尽管不是每一个人都用到了它,但应该大家都会听说过它——Google出品的高效率的获取词向量的工具。 说到提取关键词,一般会想到TF-IDF和TextRank,大家是否想过,Word2Vec还可以用来提取关键词?而且,用Word2Vec提取关键词,已经初步含有了语义上的理解,而不仅仅是简单的统计了,而且还是无监督

2017-08-01 17:06:23 7913 1

原创 python将dateframe数据存入mysql

import pymysql.cursorsimport pandas as pdconn= pymysql.connect(host='192.168.0.119',port=3306,user='root',passwd='root', db='anjian', chars

2017-08-01 15:51:37 4214

原创 MySQL中常见的字符串处理函数

ASCII(char)      返回字符的ASCII码值SELECT ASCII('a')CONCAT(s1,s2…,sn)     将s1,s2…,sn连接成字符串(oracle只支持两个字符串连接)SELECT CONCAT("super","star","!")INSERT(str,x,y,instr)    将字符串str从第x位置开始,y个字符长的子串替换为字符串instr,返回结果

2017-07-29 16:01:25 610

原创 SBCSDN-mysql中sfz号升级

转换规则大致为将15位中的6位出生日期改为8位,即在原十五位数身份证的第六位数后面插入19 ,这样身份证号就成为了17位。最后一位为校验码,是通过前面17位计算得到的。校验码计算方法:将身份证前十七位数分别乘以不同系数,从第一至十七位的系数分别为7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2,将这十七位数字和系数相乘的结果相加,用加出来的和除以11,看看余数是多少。余数只可能

2017-07-29 15:23:17 5099

转载 Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解

Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解转载请务必加上原作者:铭毅天下,原博客地址:http://blog.csdn.net/laoyang360目录(?)[+]ES540安装包下载地址Centos67 Elasticsearch540安装Head插件安装Kibana安装lo

2017-07-29 11:31:11 1249

原创 MySQL中的字符串连接方法

concat系列函数以该表为原始表进行举例 concat函数为将字符串进行拼接select concat(num,name) as newcol from testtable 当需要指定连接符号时可通过concat_ws函数进行指定 使用方法: CONCAT_WS(separator,str1,str2,…)select concat_ws(':',num,name) as newcol

2017-07-29 11:23:27 2035

2016年新闻中文文本.txt

包含了250万篇新闻。新闻来源涵盖了6.3万个媒体,含标题、关键词、描述、正文。 数据集划分:数据去重并分成三个部分。训练集:243万;验证集:7.7万;测试集,数万,不提供下载。 可能的用途: 可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料; 也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据); 亦可以通过新闻渠道区分出新闻的类型。

2020-07-30

clickhouse实践

包含clickhouse相关描述,优缺点描述,安装教程,使用方式,以及现阶段在其他企业的使用情况和应用场景。列举了适用场景和不适用场景,可根据实际情况来判断是否需要使用该组件。描述了为什么要从其他组件迁移到clickhouse的相关原因。

2023-04-06

ZooInspector.zip

zookeeper链接工具,在windows系统上运行,界面化查看zk连接信息,运行脚本位置在build中,双击执行zhixing.bat即可

2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除