自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 NLP-基于机器学习的文本分类-垃圾邮件分类

目录一、文本分类的步骤二、提取特征的经典方法三、分类器方法1.朴素贝叶斯(Naive Bayesian, NB)2.逻辑回归(Logistic Regression, lR)3.支持向量机(Support Vector Machine, SVM)四、垃圾邮件分类实战代码一、文本分类的步骤定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据。数据预处理:对文档做分词、去停用词等准备工作。数据提取特征:对文档矩阵进行降维,提取训练集中最有用的特征。模型训练阶段:选择具体的分类模型以及算法,

2021-12-03 18:21:56 3443

原创 NLP-文本向量训练及相似度计算

目录一、准备语料库二、代码1.词向量的训练及词语相似度2.段落向量的训练及文档相似度3.word2vec计算网页相似度4.doc2vec计算网页相似度一、准备语料库首先下载wiki中文语料(大约1.7G)https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”开源语料库https://github.com/b

2021-11-23 15:30:10 2275

原创 NLP-关键词提取

gensim进行LSI LSA LDA主题模型,TFIDF关键词提取,jieba TextRank关键词提取#提取关键词 Jieba+Gensimimport mathimport jiebaimport jieba.posseg as psgfrom gensim import corpora,modelsfrom jieba import analyseimport functools# 加载停用词def get_stopword_list():# 停用词表的存储路径,每一行为一个词

2021-11-17 11:38:04 1920 1

原创 NLP-二分类的应用-区分外卖评论好评/差评

目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干个类中的多个类,比如一篇文章里即描写政治又描写金融等内容,那么这篇文章可能会别贴上政治和金融两个标签

2021-11-17 11:13:30 6703 17

原创 中文分词工具jieba使用-高频热词提取

目录一、概念二、使用1.基本2.实战-高频热词提取一、概念近年来,随着NLP技术的日益成熟,开源实现的分词工具越来越多,如Ansj、盘古分词等。本文选择的是更易上手的Jieba做简单介绍。原理:Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,例如词典中出现了“上”,之后以“上”开头的词都会出现在这一部分,例如“上海”,进而会出现“上海市”,从而形成一种层级包含结构。如果将词看作节点,词和词之间的分词符看作边,那么一种分词方

2021-11-09 16:12:43 6065

原创 NLP文本相似度算法LCS

目录一、什么是LCS子序列最长公共子序列二、LCS的应用场景三、LCS的查找方法-动态规划法四、代码实现一、什么是LCS子序列子序列:一个序列S任意删除若干个字符得到的新序列T,则T叫做S的子序列最长公共子序列最长公共子序列(Longest Common Subsequence):两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列二、LCS的应用场景文本匹配:即字面匹配,是自然语言处理中一个重要的基础问题,可以应用于大量的NLP任务中,如信息检索、问答系统、复述问题、对

2021-11-05 10:09:41 1929 1

原创 银行数据部门常见案例分析--客户营销和风险监测

一、客户营销条件一:客户在15分钟内访问过页面编码TLA1A04或TLA1A11,但未访问过页面编码TLA1D01或TLA1D03,系统筛选出符合上述条件客户的网银客户号。条件二:系统需要将上述符合条件的网银客户号转换为核心客户号,按以下条件对客户进行筛选过滤。(1)剔除行员;(2)剔除客户姓名含有非中文字符的客户,剔除姓名长度≥5个中文字符数的客户(3)剔除个贷黑名单;条件三:按模板生成短信与消息盒子推送客户营销解决方案:二、风险监测条件一:针对核心账务流水,每分钟产生一个流水切片,

2020-07-05 21:23:12 1005

原创 Python实现聊天机器人

# -*- coding:utf-8 -*-import reimport urllib.requestdef robot(): while True: x = input("主人:") x = urllib.parse.quote(x) link = urllib.request.urlopen( "h...

2020-05-07 15:37:46 407 2

原创 实时消费日志2(kafka+Flink+ElasticSearch)

flink消费kafka消息,处理后保存入es一、引入依赖<properties> <flink.version>1.7.2</flink.version> <java.version>1.8</java.version> <scala.binary.version>2.11...

2020-04-24 15:47:29 598

原创 实时消费日志1(kafka+Flink+mysql)

flink消费kafka消息,处理后的结果保存到mysql一、引入依赖 <properties> <flink.version>1.7.2</flink.version> <java.version>1.8</java.version> <scala.binary.version&...

2020-04-22 17:17:52 631

原创 实时推荐算法的实现

文章目录影视实时推荐算法的实现一、实时推荐算法的前提二、算法过程如下1. 获取用户的 K 次最近评分2. 获取当前电影最相似的 K 个电影3. 电影推荐优先级计算4. 将结果保存到 mongoDB5. 更新实时推荐结果影视实时推荐算法的实现根据用户对电影的评价,实时更新该用户的推荐电影列表一、实时推荐算法的前提在 Redis 集群中存储了每一个用户最近对电影的 K 次评分。实时算法可以快...

2020-04-14 15:54:06 3043

原创 spark常用的Action算子

1.reduce(function)reduce将RDD中元素两两传递给输入函数,同时产生一个新值,新值与RDD中下一个元素再被传递给输入函数,直到最后只有一个值为止。/** * Reduce案例 */ private static void reduce() { // 创建SparkConf和JavaSparkContext Spa...

2020-04-09 16:07:11 651

原创 spark常用的Transformation算子

1.mapmap的输入变换函数应用于RDD中所有元素。/** * map算子案例,将集合中每一个元素乘以2 */ public static void map(){ //创建SparkConf SparkConf conf = new SparkConf().setAppName("map").setMaster("local");...

2020-04-08 15:43:07 137

原创 spark的简单应用(wordcount)

一、wordCount原理深度分析二、代码实现编写Spark应用程序,本地执行,是可以执行在eclipse中的main方法中,执行的第一步:创建SparkConf对象,设置Spark应用的配置信息,使用setMaster()可以设置Spark应用程序要连接的Spark集群的master节点的url,但是如果设置为local则代表,在本地运行 SparkConf conf = new ...

2020-04-07 16:27:04 255

原创 朴素贝叶斯分类的应用

朴素贝叶斯分类分为三个阶段1.第一阶段——准备工作阶段,这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、...

2020-03-31 16:32:23 839

原创 基于flink的Mapreduce嵌入式开发

Flink与Apache Hadoop MapReduce接口兼容,因此允许重用Hadoop MapReduce实现的代码。本文简述实际项目中Mapreduce在flink中的应用,task结构如下:1.引入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId&gt...

2020-03-02 14:07:59 1167

原创 Hive拉链表设计方案

一、拉链表的定义及使用场景定义:所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。使用场景:举个栗子,现有一张内含1000万数据的订单表,每天都有100左右的订单状态会变化,因业务需求要回溯某个历史节点的一笔订单的状态。现有两种处理方式:1.比较原始的做法,对每天的数据做切片表,查看对应时间的切片表可以得到该订单的历史状态,但是若一笔订单在状态一天内多次变化,切片...

2020-02-22 16:08:33 417

原创 在CDH中配置lzo压缩

一、各种压缩格式性能对比压缩能够减少存储磁盘空间,降低网络IO和磁盘IO,加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度。虽然由以上的好处,但是由于使用数据时,需要先将数据解压,加重了CPU负荷。根据我们的实际工作场景,我们要选择合适的压缩格式。常见的压缩格式如下:下面是一份源数据1.4G的文件,各类压缩格式的比率和时间对比数据压缩后大小:压缩和解压时间:从上面对比可以看...

2020-02-13 15:01:21 1133 2

原创 spark运行流程概述

spark运行流程概述用户通过spark-submit脚本提交应用spark-submit脚本启动Driver驱动器程序,调用用户定义的main()方法并创建SparkContext.创建的目的是为了初始化Spark的运行环境。Driver向ClusterManager申请资源以启动Executor执行器节点ClusterManager为Dirver启动ExecutorDriver根...

2020-02-02 14:12:46 294

原创 Hive 创建自定义UDF函数

一、为什么需要UDF函数当Hive提供的内置函数无法满足你的业务处理需要时,此时就需要考虑使用用户自定义函数(UDF:user-defined function)。二、UDF函数的分类(1)UDF(User-Defined-Function) 一进一出(2)UDAF(User-Defined Aggregation Function) 聚集函数,多进一出 类似于:count/max/...

2020-01-08 17:13:22 269

原创 Hive 知识重点梳理

Hive 知识网络梳理1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜(示例如下)解决方法1. hive设置如下hive.map.aggr=true在map中会做部分聚集操作,效率更高但需要更多的内存。hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡,当选项设定为true,生成的查询计划会有两个MR Jo...

2019-12-24 09:23:57 359

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除