左岸Jason-CSDN博客

原创 NLP-基于机器学习的文本分类-垃圾邮件分类

目录一、文本分类的步骤二、提取特征的经典方法三、分类器方法1.朴素贝叶斯(Naive Bayesian, NB)2.逻辑回归（Logistic Regression, lR）3.支持向量机（Support Vector Machine, SVM）四、垃圾邮件分类实战代码一、文本分类的步骤定义阶段：定义数据以及分类体系，具体分为哪些类别，需要哪些数据。数据预处理：对文档做分词、去停用词等准备工作。数据提取特征：对文档矩阵进行降维，提取训练集中最有用的特征。模型训练阶段：选择具体的分类模型以及算法，

2021-12-03 18:21:56 3443

原创 NLP-文本向量训练及相似度计算

目录一、准备语料库二、代码1.词向量的训练及词语相似度2.段落向量的训练及文档相似度3.word2vec计算网页相似度4.doc2vec计算网页相似度一、准备语料库首先下载wiki中文语料（大约1.7G）https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2下载的文件名为“zhwiki-latest-pages-articles.xml.bz2”开源语料库https://github.com/b

2021-11-23 15:30:10 2275

原创 NLP-关键词提取

gensim进行LSI LSA LDA主题模型，TFIDF关键词提取，jieba TextRank关键词提取#提取关键词 Jieba+Gensimimport mathimport jiebaimport jieba.posseg as psgfrom gensim import corpora,modelsfrom jieba import analyseimport functools# 加载停用词def get_stopword_list():# 停用词表的存储路径，每一行为一个词

2021-11-17 11:38:04 1920 1

原创 NLP-二分类的应用-区分外卖评论好评/差评

目录一、概念二、二分类实战-划分好评/差评1.处理步骤2.实战代码一、概念文本分类一般可以分为二分类、多分类、多标签分类三种情况。二分类是指将一组文本分成两个类(0或1),比较常见的应用如垃圾邮件分类、电商网站的用户评价数据的正负面分类等,多分类是指将文本分成若干个类中的某一个类,比如说门户网站新闻可以归属到不同的栏目中(如政治、体育、社会、科技、金融等栏目)去。多标签分类指的是可以将文本分成若干个类中的多个类,比如一篇文章里即描写政治又描写金融等内容，那么这篇文章可能会别贴上政治和金融两个标签

2021-11-17 11:13:30 6703 17

原创中文分词工具jieba使用-高频热词提取

目录一、概念二、使用1.基本2.实战-高频热词提取一、概念近年来，随着NLP技术的日益成熟，开源实现的分词工具越来越多，如Ansj、盘古分词等。本文选择的是更易上手的Jieba做简单介绍。原理：Jieba分词结合了基于规则和基于统计这两类方法。首先基于前缀词典进行词图扫描，前缀词典是指词典中的词按照前缀包含的顺序排列，例如词典中出现了“上”，之后以“上”开头的词都会出现在这一部分，例如“上海”，进而会出现“上海市”，从而形成一种层级包含结构。如果将词看作节点，词和词之间的分词符看作边，那么一种分词方

2021-11-09 16:12:43 6065

原创 NLP文本相似度算法LCS

目录一、什么是LCS子序列最长公共子序列二、LCS的应用场景三、LCS的查找方法-动态规划法四、代码实现一、什么是LCS子序列子序列:一个序列S任意删除若干个字符得到的新序列T，则T叫做S的子序列最长公共子序列最长公共子序列（Longest Common Subsequence）：两个序列X和Y的公共子序列中，长度最长的那个，定义为X和Y的最长公共子序列二、LCS的应用场景文本匹配：即字面匹配，是自然语言处理中一个重要的基础问题，可以应用于大量的NLP任务中，如信息检索、问答系统、复述问题、对

2021-11-05 10:09:41 1929 1

原创银行数据部门常见案例分析--客户营销和风险监测

一、客户营销条件一：客户在15分钟内访问过页面编码TLA1A04或TLA1A11，但未访问过页面编码TLA1D01或TLA1D03，系统筛选出符合上述条件客户的网银客户号。条件二：系统需要将上述符合条件的网银客户号转换为核心客户号，按以下条件对客户进行筛选过滤。（1）剔除行员；（2）剔除客户姓名含有非中文字符的客户，剔除姓名长度≥5个中文字符数的客户（3）剔除个贷黑名单；条件三：按模板生成短信与消息盒子推送客户营销解决方案：二、风险监测条件一：针对核心账务流水，每分钟产生一个流水切片，

2020-07-05 21:23:12 1005

原创 Python实现聊天机器人

# -*- coding:utf-8 -*-import reimport urllib.requestdef robot(): while True: x = input("主人：") x = urllib.parse.quote(x) link = urllib.request.urlopen( "h...

2020-05-07 15:37:46 407 2

原创实时消费日志2（kafka+Flink+ElasticSearch）

flink消费kafka消息，处理后保存入es一、引入依赖<properties> <flink.version>1.7.2</flink.version> <java.version>1.8</java.version> <scala.binary.version>2.11...

2020-04-24 15:47:29 598

原创实时消费日志1（kafka+Flink+mysql）

flink消费kafka消息，处理后的结果保存到mysql一、引入依赖 <properties> <flink.version>1.7.2</flink.version> <java.version>1.8</java.version> <scala.binary.version&...

2020-04-22 17:17:52 631

原创实时推荐算法的实现

文章目录影视实时推荐算法的实现一、实时推荐算法的前提二、算法过程如下1. 获取用户的 K 次最近评分2. 获取当前电影最相似的 K 个电影3. 电影推荐优先级计算4. 将结果保存到 mongoDB5. 更新实时推荐结果影视实时推荐算法的实现根据用户对电影的评价，实时更新该用户的推荐电影列表一、实时推荐算法的前提在 Redis 集群中存储了每一个用户最近对电影的 K 次评分。实时算法可以快...

2020-04-14 15:54:06 3043

原创 spark常用的Action算子

1.reduce（function）reduce将RDD中元素两两传递给输入函数，同时产生一个新值，新值与RDD中下一个元素再被传递给输入函数，直到最后只有一个值为止。/** * Reduce案例 */ private static void reduce() { // 创建SparkConf和JavaSparkContext Spa...

2020-04-09 16:07:11 651

原创 spark常用的Transformation算子

1.mapmap的输入变换函数应用于RDD中所有元素。/** * map算子案例，将集合中每一个元素乘以2 */ public static void map(){ //创建SparkConf SparkConf conf = new SparkConf().setAppName("map").setMaster("local");...

2020-04-08 15:43:07 137

原创 spark的简单应用（wordcount）

一、wordCount原理深度分析二、代码实现编写Spark应用程序,本地执行，是可以执行在eclipse中的main方法中，执行的第一步：创建SparkConf对象，设置Spark应用的配置信息，使用setMaster()可以设置Spark应用程序要连接的Spark集群的master节点的url，但是如果设置为local则代表，在本地运行 SparkConf conf = new ...

2020-04-07 16:27:04 255

原创朴素贝叶斯分类的应用

朴素贝叶斯分类分为三个阶段1.第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、...

2020-03-31 16:32:23 839

原创基于flink的Mapreduce嵌入式开发

Flink与Apache Hadoop MapReduce接口兼容，因此允许重用Hadoop MapReduce实现的代码。本文简述实际项目中Mapreduce在flink中的应用，task结构如下：1.引入依赖<dependency> <groupId>org.apache.flink</groupId> <artifactId&gt...

2020-03-02 14:07:59 1167

原创 Hive拉链表设计方案

一、拉链表的定义及使用场景定义：所谓拉链，就是记录历史。记录一个事物从开始，一直到当前状态的所有变化的信息。使用场景：举个栗子，现有一张内含1000万数据的订单表，每天都有100左右的订单状态会变化，因业务需求要回溯某个历史节点的一笔订单的状态。现有两种处理方式：1.比较原始的做法，对每天的数据做切片表，查看对应时间的切片表可以得到该订单的历史状态，但是若一笔订单在状态一天内多次变化，切片...

2020-02-22 16:08:33 417

原创在CDH中配置lzo压缩

一、各种压缩格式性能对比压缩能够减少存储磁盘空间，降低网络IO和磁盘IO，加快数据在磁盘和网络中的传输速度，从而提高系统的处理速度。虽然由以上的好处，但是由于使用数据时，需要先将数据解压，加重了CPU负荷。根据我们的实际工作场景，我们要选择合适的压缩格式。常见的压缩格式如下：下面是一份源数据1.4G的文件，各类压缩格式的比率和时间对比数据压缩后大小：压缩和解压时间：从上面对比可以看...

2020-02-13 15:01:21 1133 2

原创 spark运行流程概述

spark运行流程概述用户通过spark-submit脚本提交应用spark-submit脚本启动Driver驱动器程序，调用用户定义的main()方法并创建SparkContext.创建的目的是为了初始化Spark的运行环境。Driver向ClusterManager申请资源以启动Executor执行器节点ClusterManager为Dirver启动ExecutorDriver根...

2020-02-02 14:12:46 294

原创 Hive 创建自定义UDF函数

一、为什么需要UDF函数当Hive提供的内置函数无法满足你的业务处理需要时，此时就需要考虑使用用户自定义函数（UDF：user-defined function）。二、UDF函数的分类（1）UDF（User-Defined-Function）一进一出（2）UDAF（User-Defined Aggregation Function）聚集函数，多进一出类似于：count/max/...

2020-01-08 17:13:22 269

原创 Hive 知识重点梳理

Hive 知识网络梳理1. Hive数据倾斜原因key分布不均匀业务数据本身的特性SQL语句造成数据倾斜（示例如下）解决方法1. hive设置如下hive.map.aggr=true在map中会做部分聚集操作，效率更高但需要更多的内存。hive.groupby.skewindata=true有数据倾斜的时候进行负载均衡，当选项设定为true,生成的查询计划会有两个MR Jo...

2019-12-24 09:23:57 359

djx1085213329的博客