自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

皮皮的博客

书山有路,学海无涯。记录成长,追逐梦想。

  • 博客(142)
  • 收藏
  • 关注

原创 【自然语言处理】主题建模评估:连贯性分数(Coherence Score)

主题连贯性分数(Coherence Score)是一种客观的衡量标准,它基于语言学的分布假设:具有相似含义的词往往出现在相似的上下文中。 如果所有或大部分单词都密切相关,则主题被认为是连贯的。

2023-01-31 18:51:58 221

原创 【自然语言处理】情感分析(五):基于 BERT 实现

即使大家没用过 BERT(Bidirectional Encoder Representation from Transformers),相信对它在自然语言处理任务中的优越表现也早已有所耳闻。本篇博客将重点介绍 BERT 是如何助力情感分析的。工欲善其事必先利其器,在正式开始之前,先介绍几个要用到的包。

2023-01-29 18:21:16 242

原创 【自然语言处理】主题建模:基于 LDA 实现

主题建模是一种常见的自然语言处理任务。隐含的狄利克雷分布(Latent Dirichlet Allocation,LDA)是其中一种实现算法,其核心思想如下图所示。

2023-01-28 00:31:00 328

原创 【自然语言处理】情感分析(四):基于 Tokenizer 和 Word2Vec 的 CNN 实现

本文将用卷积神经网络(Convolutional Neural Networks,CNN)替换上一篇博客中的 LSTM。LSTM 是循环神经网络(Recurrent Neural Network,RNN)的一种。

2023-01-27 16:26:08 459 1

原创 【自然语言处理】情感分析(三):基于 Word2Vec 的 LSTM 实现

本文是情感分析系列的第 3 篇。

2023-01-27 01:11:06 540

原创 【自然语言处理】情感分析(二):基于 scikit-learn 的 Naive Bayes 实现

在上一篇博客 情感分析(一):基于 NLTK 的 Naive Bayes 实现 中,我们介绍了基于 NLTK 实现朴素贝叶斯分类的方法,本文将基于 scikit-learn 再次介绍朴素贝叶斯分类的实现方法。

2023-01-26 11:46:44 273

原创 【自然语言处理】情感分析(一):基于 NLTK 的 Naive Bayes 实现

朴素贝叶斯(Naive Bayes)分类器可以用来确定输入文本属于某一组类别的概率。例如,预测评论是正面的还是负面的。它是 “朴素的”,它假设文本中的单词是独立的(但在现实的自然人类语言中,单词的顺序传达了上下文信息)。尽管有这些假设,但朴素贝叶斯在使用少量训练集预测类别时具有很高的准确性。

2023-01-25 21:00:43 466

原创 【自然语言处理】基于NLP的电影评论情感分析模型比较

一段时间以来,使用机器学习的 NLP 任务借助 BERT(Bidirectional Encoder Representations from Transformers)模型被认为是当前的黄金标准。这些模型通常用于我们日常的许多语言处理任务,比如谷歌搜索自动补全等。然而,我们会怀疑 BERT 模型是否是所有语言处理任务的最佳选择?

2023-01-22 23:30:11 1341

原创 【自然语言处理】Gensim中的Word2Vec

BOW 和 TF-IDF 都只着重于词汇出现在文件中的次数,未考虑语言、文字有上下文的关联,针对上下文的关联,Google 研发团队提出了词向量 Word2vec,将每个单字改以上下文表达,然后转换为向量,这就是词嵌入(Word Embedding),与 TF-IDF 输出的是稀疏向量不同,词嵌入的输出是一个稠密的样本空间。

2023-01-22 15:21:14 416

翻译 【自然语言处理】图解Word2Vec

嵌入(Embedding)是机器学习中最令人着迷的 idea 之一。如果你使用过 Siri、Google Assistant、Alexa、Google Translate,或者是带有预测下一个词的功能的智能手机键盘,那么你已经从这个成为 NLP 模型核心的 idea 中受益。在过去的几十年中,将嵌入用于神经网络模型方面取得了相当大的发展,如最新的 BERT、GPT2 等。

2023-01-22 02:19:48 23

原创 【自然语言处理】词袋模型在文本分类中的用法

词袋模型在文本分类中的用法

2023-01-21 00:43:10 377

翻译 【自然语言处理】BOW和TF-IDF详解

机器无法处理原始形式的文本数据。我们需要将文本分解成一种易于机器阅读的数字格式(自然语言处理背后的理念!)。BOW 和 TF-IDF 都是帮助我们将文本句子转换为向量的技术。

2023-01-20 19:36:15 30

原创 【自然语言处理】文本表示(一):One-Hot、BOW、TF-IDF、N-Gram

文本表示(一):One-Hot、BOW、TF-IDF、N-Gram

2023-01-20 17:35:32 520

原创 【云计算】云计算的3种服务模式:IaaS、PaaS、SaaS

“即服务”(as-a-service)模型是基于云计算的 Web2.0 第二波浪潮的典型代表。这些模型的基本前提是为最终客户提供解决方案,而无需在本地托管。IaaS 和 PaaS 偏向于开发团队,SaaS 对终端用户有更广泛的应用。

2023-01-19 23:52:09 34

原创 【自然语言处理】Gensim核心概念

在 Gensim 中,文档是文本序列类型的对象(在 Python 3 中通常称为 str)。文档可以是 140 个字符的简短推文、单个段落(即期刊文章摘要)、新闻文章或书籍。

2023-01-13 20:50:56 318

原创 【自然语言处理】文本相似度算法:TF-IDF与BM25

文本相似度算法:TF-IDF与BM25

2023-01-11 17:07:24 501 1

原创 【Java编程】SSH:Struts、Spring、Hibernate

SSH 框架指的是 Struts、Spring 和 Hibernate 三者的集成。集成 SSH 框架的系统从职责上分为表示层、业务逻辑层、数据持久层和域模块层。Struts 属于 MVC 框架的一种,提供了对 MVC 系统底层的支持,负责 MVC 的分离,在 Struts 框架的模型部分,控制业务跳转,利用 Hibernate 框架对持久层提供支持,Spring 则管理 Struts 和 Hibernate。

2022-12-18 14:40:17 307 1

原创 【Java编程】MVC框架和经典三层结构

经典三层架构是一种设计模式,而 MVC 框架只是该模式的一个具体实现。设计模式比框架更加抽象。设计模式更像建筑师手中的图纸,而框架则代表了实际的建筑。框架可用代码表示并直接执行或复用,模式只是对问题的描述或解决问题的方法的描述。

2022-12-18 13:26:36 306 1

转载 【计算机网络】一文走进Nginx

Nginx 作为开源的轻量级的 HTTP 服务器,广泛应用于分布式应用架构中。本文简要介绍了 Nginx 的特点及使用场景、Nginx 的进程模型和请求处理流程,并结合不同场景进行配置,对 Nginx 的架构和实现原理有个初步的了解。

2022-12-16 16:47:06 60 1

原创 【自然语言处理】基于TextRank算法的文本摘要

利用计算机将大量的文本进行处理,产生简洁、精炼内容的过程就是文本摘要,人们可通过阅读摘要来把握文本主要内容,这不仅大大节省时间,更提高阅读效率。但人工摘要耗时又耗力,已不能满足日益增长的信息需求,因此借助计算机进行文本处理的自动文摘应运而生。

2022-12-16 00:48:23 238 1

原创 【软件开发】前后端分离架构下JWT实现用户鉴权

在【计算机网络】JWT(JSON Web Token)初识 中,我们讲解了 JWT 的基础知识。Token 验证的方式一般是用在前后端分离的软件开发项目中,所以本篇文章将会从前端和后端的角度去考虑 JWT 的实现。前端 Vue,后端 Flask。

2022-12-14 17:02:38 326 1

原创 【计算机网络】HTTP首部详解

HTTP 协议的请求和响应报文中必定包含 HTTP 首部。首部内容为客户端和服务端分别处理请求和响应提供所需要的信息。对于客户端用户来说,这些信息中的大部分内容都无需亲自查看。

2022-12-13 16:57:39 1098 4

转载 【计算机网络】JWT(JSON Web Token)初识

JSON Web Token(缩写 JWT)是目前最流行的跨域认证解决方案,本文介绍它的原理和用法。

2022-12-12 23:36:55 53 1

原创 【Python开发】Flask中的单点登录解决方案

单点登录(Single Sign On,SSO)就是通过用户的一次性鉴别登录。当用户在身份认证服务器上登录一次以后,即可获得访问单点登录系统中其他关联系统和应用软件的权限,同时这种实现是不需要管理员对用户的登录状态或其他信息进行修改的,这意味着在多个应用系统中,用户只需一次登录就可以访问所有相互信任的应用系统。这种方式减少了由登录产生的时间消耗,辅助了用户管理,是比较流行的。

2022-12-10 00:23:48 804 2

原创 【Python开发】一文详解Flask-Login

Flask-Login 为 Flask 提供用户会话管理。它处理登录、注销和长时间记住用户会话等常见任务。Flask-Login 不绑定到任何特定的数据库系统或权限模型。唯一的要求是您的用户对象实现一些方法,并且您向能够从用户 ID 加载用户的扩展提供回调。

2022-11-28 17:18:45 628 2

翻译 【自然语言处理】利用TextRank算法提取关键词

TextRank 是一种基于 PageRank 的算法,常用于关键词提取和文本摘要。在本文中,我将通过一个关键字提取示例帮助您了解 TextRank 如何工作,并展示 Python 的实现。

2022-11-27 23:35:03 596 1

原创 【Python开发】Flask项目的组织架构

在大型Flask项目中,主要有三种常见的项目组织架构:功能式架构(也就是 Bluelog 程序使用的架构)、分区式架构和混合式架构。我们将以一个示例程序 myapp 作为示例来介绍这三种架构的特点和区别,这个程序按照功能主要分为三部分:前台页面 front、认证 auth、后台管理 dashboard,为每个部分创建一个蓝本。

2022-11-16 23:28:18 937 1

原创 【Python开发】Flask开发实战:个人博客(四)

为了支持管理员管理文章、分类、评论和链接,我们需要提供后台管理功能。通常来说,程序的这一部分被称为管理后台、控制面板或仪表盘等。这里通常会提供网站的资源信息和运行状态,管理员可以统一查看和管理所有资源。管理员面板通常会使用独立样式的界面,所以你可以为这部分功能的模板创建一个单独的基模板。为了保持简单,Bluelog 的管理后台和前台页面使用相同的样式。

2022-11-16 20:20:59 614 2

原创 【Python开发】Flask开发实战:个人博客(三)

那么,本篇文章将会介绍如何初始化博客、利用 Flask-Login 管理用户认证、使用 CSRFProtect 实现 CSRF 保护。

2022-11-15 20:36:39 395 7

原创 【Python开发】Flask开发实战:个人博客(二)

在【Python开发】Flask开发实战:个人博客(一)中,我们已经完成了 数据库设计、数据准备、模板架构、表单设计、视图函数设计、电子邮件支持 等总体设计的内容,本篇博客将介绍博客前台的实现。博客前台需要开放给所有用户,这里包括显示文章列表、博客信息、文章内容和评论等功能。

2022-11-14 20:23:23 588 1

原创 【Python开发】Flask开发实战:个人博客(一)

本文要学习的示例程序是一个个人博客程序:Bluelog。博客是典型的 CMS(Content Management System,内容管理系统),通常由两部分组成:一部分是博客前台,用来展示开放给所有用户的博客内容;另一部分是博客后台,这部分内容仅开放给博客管理员,用来对博客资源进行添加、修改和删除等操作。

2022-11-13 20:08:45 653

转载 【Java编程】JavaSE基础总结(六):多线程

进程是程序执行的实体,每一个进程都是一个应用程序(比如我们运行QQ、浏览器、LOL、网易云音乐等软件),都有自己的内存空间,CPU 一个核心同时只能处理一件事情,当出现多个进程需要同时运行时,CPU一般通过 时间片轮转调度算法,来实现多个进程的同时运行。

2022-11-06 23:52:22 47 2

原创 【数据库】使用SQLAlchemy建立模型之间的基础关系模式

SQLAlchemy“采用简单的Python语言,为高效和高性能的数据库访问设计,实现了完整的企业级持久模型”。SQLAlchemy的理念是,SQL数据库的量级和性能重要于对象集合;而对象集合的抽象又重要于表和行。因此,SQLAlchemy采用了类似于Java里Hibernate的数据映射模型,而不是其他ORM框架采用的Active Record模型。

2022-10-01 19:40:40 774 1

原创 【测试开发】Pytest 接口自动化测试

结合单元测试框架 Pytest + 数据驱动模型 + allure

2022-09-23 16:39:38 942 2

原创 【Java编程】关于Java的几个基础问题

关于Java的几个基础问题

2022-09-22 20:52:28 448

转载 【软件测试】基于 requests 框架实现接口自动化测试

requests 库是一个常用的用于 http 请求的模块,它使用 python 语言编写,在当下 python 系列的接口自动化中应用广泛,本文将带领大家深入学习这个库。

2022-09-22 17:30:19 100

原创 【软件测试】软件测试基础理论

软件测试的几个基本理论。

2022-09-20 18:57:50 840 2

原创 【软件测试】POST请求包含哪些参数

数据发送出去,还要服务端解析成功才有意义。一般服务端语言如 php、python 等,以及它们的 framework,都内置了自动解析常见数据格式的功能。服务端通常是根据请求头(headers)中的 Content-Type 字段来获知请求中的消息主体是用何种方式编码,再对主体进行解析。

2022-09-20 11:48:22 752

转载 【测试开发】自动化测试在美团外卖的实践与落地

随着美团到家业务的发展,系统复杂度也在持续增长。测试用例数量近两年增长约一倍,单端数量超过 1 万 2 千条,而研发人员的工作从大部分时间在开发,转变成一半时间在开发、一半时间在模拟环境和自测。因此,引入自动化测试就显得十分有必要,本文介绍了美团外卖在自动化测试方向做的一些探索和实践,希望对从事相关领域工作的同学能够带来一些启发或帮助。

2022-09-17 16:34:41 500 1

原创 【Java编程】图书管理系统

JavaSE实现的简易图书管理系统。

2022-09-16 23:33:19 250

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除