- 博客(81)
- 资源 (2)
- 收藏
- 关注
原创 通过Spark向Kafka写入数据
1、·将KafkaProducer利用lazy val的方式进行包装package cn.com.m.utilimport java.util.concurrent.Futureimport org.apache.kafka.clients.producer.{KafkaProducer, ProducerRecord, RecordMetadata}class KafkaSink[K, V](createProducer: () => KafkaProducer[K, V]) ext
2020-11-09 13:59:19
2671
转载 pandas中DataFrame的连接操作:join
pandas中的DataFrame变量的join连接总是记不住,在这里做一个小结,参考资料是官方文档。pandas.DataFrame.joinDataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)通过索引或者指定的列连接两个DataFrame。通过一个list可以一次高效的连接多个DataFrame。参数说明other:【DataFrame,或者带有名字的Series,或者DataFram
2020-09-29 15:15:31
4602
转载 【推荐系统】基于用户的协同过滤算法(UserCF)的python实现
1.数据集MovieLensMovieLens数据集包含多个用户对多部电影的评级数据,也包括电影元数据信息和用户属性信息。这个数据集经常用来做推荐系统,机器学习算法的测试数据集。尤其在推荐系统领域.数据集的下载地址为:http://files.grouplens.org/datasets/movielens/,有好几种版本,对应不同数据量,本文所用的数据为ml-latest-small.zip。本文主要使用其中ratings.csv、movies.csv两个数据表:ratings数据userId:
2020-09-28 15:37:11
2004
转载 jieba分词算法总结
jieba分词算法总结特点: 支持三种分词模式 –精确模式,试图将句子最精确地切开,适合文本分析; –全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但不能解决歧义; –搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。 -支持繁体分词 -支持自定义词典 使用: -安装或者将jieba目录放在当前目录或者site-packages目录 算法: -基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) -
2020-09-27 11:09:27
838
原创 Python日常使用相关操作
d = {'one':5,'two':6,'three':3}sorted(d.items(), key=lambda x:x[1], reverse = True)自定义一个字典d,按照value从大到小排序,如果对key排序,用x[0];默认的是从小到大排序,如果是从大到小,需要用reverse = True.注意返回的是一个List,不再是Dict....
2020-09-08 17:32:23
282
转载 sklearn之train_test_split()函数各参数含义
sklearn之train_test_split()函数各参数含义在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection 中调用train_test_split 函数 简单用法如下:X_train,X_test, y_train, y_test =sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.4, random_stat
2020-08-31 11:53:30
1050
原创 Word2Vec参数说明
def __init__(self, sentences=None, corpus_file=None, size=100, alpha=0.025, window=5, min_count=5, max_vocab_size=None, sample=1e-3, seed=1, workers=3, min_alpha=0.0001, sg=0, hs=0, negative=5, ns_exponent=0.75, cbow_mean.
2020-07-29 11:00:37
3013
原创 awk根据某列进行过滤
awk -F ',' '$6=="山东"{print $6}' W20112701831574791524466.csv | wc -lcsv文件中第6列为山东的行数
2020-05-26 16:10:22
3054
转载 十五个点,理解Apache Kafka
一、介绍Kafka在世界享有盛名,大部分互联网公司都在使用它,那么它到底是什么呢? Kafka由LinkedIn公司于2011年推出,自那时起功能逐步迭代,目前演变成一个完整的平台级产品,它允许您冗余地存储巨大的数据量,拥有一个具有巨大吞吐量(数百万/秒)的消息总线,并且支持实时流任务处理。总的来说,Kafka是一个分布式,可水平扩展,容错的日志提交系统这些...
2020-03-04 17:02:33
469
1
转载 kafka架构与原理
1、简介它可以让你发布和订阅记录流。在这方面,它类似于一个消息队列或企业消息系统。它可以让你持久化收到的记录流,从而具有容错能力。首先,明确几个概念:• Kafka运行在一个或多个服务器上。• Kafka集群分类存储的记录流被称为主题(Topics)。• 每个消息记录包含一个键,一个值和时间戳。Kafka有四个核心API:• 生产者 API 允许应用程序发布记录流至一个或多个Kaf...
2020-03-04 16:51:55
429
转载 Spark中Accumulator的使用
Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使用使用示例举...
2019-05-05 10:34:23
1446
转载 Spark持久化&检查点
1.持久化Spark持久化过程包括persist、cache、upersist3个操作 /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ def persist(): this.type = persist(StorageLevel.MEMORY_ONLY) ...
2019-04-23 16:44:19
483
原创 Spark RDD基本转换
union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。scala> var rdd1 = sc.makeRDD(Seq(1,2,2,3))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollection...
2019-04-17 10:39:48
264
原创 linux安装pymysql
1. 下载离线安装包:地址为:https://pypi.doubanio.com/simple/pymysql/下载指定版本,这里下载的为PyMySQL-0.7.11.tar.gz2.解压离线包:首先将压缩包放到指定位置,执行解压命令:tar -zxvf PyMySQL-0.7.11.tar.gz3.安装:进入PyMySQL-0.7.11cd PyMySQL-0.7.1...
2019-04-16 16:22:47
6103
转载 spark scala 对dataframe进行过滤----filter方法使用
val df = sc.parallelize(Seq(("a", 1), ("a", 2), ("b", 2), ("b", 3), ("c", 1))).toDF("id", "num")对整数类型过滤逻辑运算符:>, <, ===df.filter($"num"===2)df.filter($"num">2)df.filter($"num"<2)或者d...
2019-04-04 17:23:10
11592
转载 Flume中的HDFS Sink配置
Flume中的HDFS Sink配置参数说明type:hdfspath:hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/filePrefix:默认值:FlumeData,写入hdfs的文件名前缀fileSuffix:写入 hdfs 的文件名后缀,比如:.lzo .log等。inUsePrefix:临时文件的文件名前缀...
2019-04-03 15:29:55
829
1
原创 linux安装azkaban
准备mkdir-p/opt/apps/azkabancd /opt/apps/azkabanrz 上传azkaban-web-server-2.5.0.tar.gz,azkaban-executor-server-2.5.0.tar.gzazkaban-sql-script-2.5.0.tar.gztar -zxvf azkaban-web-server-2....
2019-01-18 15:08:41
440
原创 centos6安装mysql5.5
删除原有mysql# rpm -qa |grep mysql //查看原有mysql存在类似如下:qt-mysql-4.6.2-26.el6_4.x86_64mysql-connector-odbc-5.1.5r1144-7.el6.x86_64mysql-libs-5.1.71-1.el6.x86_64mysql-5.1.71-1.el6.x86_64mysql-...
2019-01-18 14:55:08
440
原创 centos6安装CDH5.7.4
下载的包有如下几个:CDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcelCDH-5.7.4-1.cdh5.7.4.p0.2-el6.parcel.shamanifest.jsoncloudera-manager-el6-cm5.7.4_x86_64.tar.gzmysql-connector-java-5.1.38.jar下载地址如下:CDH下载...
2019-01-18 13:37:14
498
转载 Redis Cluster集群
Redis Cluster集群 一、redis-cluster设计Redis集群搭建的方式有多种,例如使用zookeeper等,但从redis 3.0之后版本支持redis-cluster集群,Redis-Cluster采用无中心结构,每个节点保存数据和整个集群状态,每个节点都和其他所有 节点连接。其redis-cluster架构图如下:其结构特点:&nbs...
2018-11-21 13:42:00
256
转载 Hive自定义UDF函数
Hive自定义UDF函数以简单的处理单个字段的UDF函数为例,开发自定义UDF函数需要继承’org.apache.hadoop.hive.ql.exec.UDF’类. 可以通过Maven添加,pom文件中加入(版本号跟Hive版本一致即可):&lt;dependency&gt; &lt;groupId&gt;org.apache.hive&lt...
2018-08-03 14:36:36
348
转载 Spark Yarn-cluster与Yarn-client
Spark Yarn-cluster与Yarn-client 摘要在Spark中,有Yarn-Client和Yarn-Cluster两种模式可以运行在Yarn上,通常Yarn-Cluster适用于生产环境,而Yarn-Clientr更适用于交互,调试模式,以下是...
2018-07-31 11:28:20
354
转载 Scala伴生类和伴生对象
Scala伴生类和伴生对象 单例对象与类同名时,这个单例对象被称为这个类的伴生对象,而这个类被称为这个单例对象的伴生类。伴生类和伴生对象要在同一个源文件中定义,伴生对象和伴生类可以互相访问其私有成员。不与伴生类同名的单例对象称为孤立对象。看看例子:?123456789101112131415161718192021222324252627...
2018-07-31 10:49:13
446
转载 Storm入门原理
storm 入门原理介绍 1.hadoop有master与slave,Storm与之对应的节点是什么?2.Storm控制节点上面运行一个后台程序被称之为什么?3.Supervisor的作用是什么?4.Topology与Worker之间的关系是什么?5.Ni...
2018-07-26 16:55:34
387
原创 Spark之 cache()和persist()
× Spark之cache()和persist() SuperBoy_Liang RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后,,然后再针对该R...
2018-07-23 17:22:53
401
转载 Spark之DataFrame操作大全
Spark&nbsp;Session中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。本文中的代码基于Spark-2.2的文档实现。一、DataFrame对象的生成 Spark-SQL可以以其他RDD对象、parquet文件、json文件、Hiv...
2018-07-23 17:01:31
5570
转载 Spark之reduceByKey与GroupByKey
Spark中针对键值对类型的RDD做各种操作比较常用的两个方法就是ReduceByKey与GroupByKey方法,下面从源码里面看看ReduceByKey与GroupByKey方法的使用以及内部逻辑。官方源码解释:三种形式的reduceByKey总体来说下面三种形式的方法备注大意为: 根据用户传入的函数来对...
2018-07-23 16:53:29
923
原创 Centos7 通过yum安装pip
前几天用Python作了一些数据处理,觉得Python在分析数据方面很有优势,于是决定在服务器上用Python做一些测试。Python的一个优点就是有着丰富的库,它们能处理大多数的常见问题,安装这些库也比较简单,通过pip命令就能安装,然后就能直接使用。一般自带的python都为2.7版本。 Pip命令不识别,说明机器上并没有安装pip。 首先安装epel扩展源:sudo yum -y
2017-08-16 11:11:58
9162
原创 map与flatmap区别
map的作用很容易理解就是对rdd之中的元素进行逐一进行函数操作映射为另外一个rdd。flatMap的操作是将函数应用于rdd之中的每一个元素,将返回的迭代器的所有内容构成新的rdd。通常用来切分单词。 Spark 中 map函数会对每一条输入进行指定的操作,然后为每一条输入返回一个对象; - 而flatMap函数则是两个操作的集合——正是“先映射后扁平化”: 操作1:同map函数一样:
2017-08-01 17:25:47
817
原创 Word2Vec提取关键词,词语相似度
对于了解深度学习、自然语言处理NLP的读者来说,Word2Vec可以说是家喻户晓的工具,尽管不是每一个人都用到了它,但应该大家都会听说过它——Google出品的高效率的获取词向量的工具。 说到提取关键词,一般会想到TF-IDF和TextRank,大家是否想过,Word2Vec还可以用来提取关键词?而且,用Word2Vec提取关键词,已经初步含有了语义上的理解,而不仅仅是简单的统计了,而且还是无监督
2017-08-01 17:06:23
7913
1
原创 python将dateframe数据存入mysql
import pymysql.cursorsimport pandas as pdconn= pymysql.connect(host='192.168.0.119',port=3306,user='root',passwd='root', db='anjian', chars
2017-08-01 15:51:37
4214
原创 MySQL中常见的字符串处理函数
ASCII(char) 返回字符的ASCII码值SELECT ASCII('a')CONCAT(s1,s2…,sn) 将s1,s2…,sn连接成字符串(oracle只支持两个字符串连接)SELECT CONCAT("super","star","!")INSERT(str,x,y,instr) 将字符串str从第x位置开始,y个字符长的子串替换为字符串instr,返回结果
2017-07-29 16:01:25
610
原创 SBCSDN-mysql中sfz号升级
转换规则大致为将15位中的6位出生日期改为8位,即在原十五位数身份证的第六位数后面插入19 ,这样身份证号就成为了17位。最后一位为校验码,是通过前面17位计算得到的。校验码计算方法:将身份证前十七位数分别乘以不同系数,从第一至十七位的系数分别为7、9、10、5、8、4、2、1、6、3、7、9、10、5、8、4、2,将这十七位数字和系数相乘的结果相加,用加出来的和除以11,看看余数是多少。余数只可能
2017-07-29 15:23:17
5099
转载 Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解
Elasticsearch5.4.0(head/kibana/logstash)安装部署深入详解转载请务必加上原作者:铭毅天下,原博客地址:http://blog.csdn.net/laoyang360目录(?)[+]ES540安装包下载地址Centos67 Elasticsearch540安装Head插件安装Kibana安装lo
2017-07-29 11:31:11
1249
原创 MySQL中的字符串连接方法
concat系列函数以该表为原始表进行举例 concat函数为将字符串进行拼接select concat(num,name) as newcol from testtable 当需要指定连接符号时可通过concat_ws函数进行指定 使用方法: CONCAT_WS(separator,str1,str2,…)select concat_ws(':',num,name) as newcol
2017-07-29 11:23:27
2035
2016年新闻中文文本.txt
2020-07-30
clickhouse实践
2023-04-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅