自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 学习NLP的第10天——文章关键词提取:词频统计

关键词提取是词语颗粒度的信息抽取的一种重要的需求,即提取文章中重要的词语。关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。其中,词频和TextRank属于单文档算法,即只需一篇文章即可提取出其中的关键词;而TF-IDF则属于多文档宣发,需要其他文档的辅助来提取当前文章的关键词。词频统计的Python实现词频统计的逻辑是:在一篇文章中,越重要的关键词往往会在文章中...

2020-03-06 16:54:53 5781

原创 学习NLP的第9天——基于HanLP实现的拼音转换

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。拼音转换是指将汉字转化为拼音的过程。因为拼音转换涉及多音字的问题,所以仍然不能仅通过字转换,还需要按词转换。下面我们使用HanLP的方法实现拼音转换。from pyhanlp import *if __name__ == "__main__": Pinyin = JClass("c...

2020-03-06 16:52:56 1537

原创 学习NLP的第8天——基于HanLP实现的中文文本清洗

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。在拿到自然语言语料之后,并不能直接用来分析,需要先进行数据清洗的工作。英文语料数据清洗通常而言,英文语料的清洗包括如下步骤:文本规范化(Normalization),将文本中所有的字母统一转换为大写或小写,如不需要标点符号也可以过滤掉文本中的标点符号。 英文语料分词(Tokenization),将...

2020-03-06 16:48:57 2170

原创 学习NLP的第7天——基于HanLP实现的停用词过滤

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。停用词,是指文本中没有多少实际意义的词语,包括助词、连词、副词、语气词等词性,句子中去掉了停用词并不影响语句的理解。停用词视具体情况在英雄联盟的游戏内聊天框中,敏感词和低俗词也都被视作了停用词。停用词过滤是语言文本预处理的一个重要步骤,有两种常用的情景:将分词结果中的停用词剔除 直接将文本中的...

2020-03-06 16:47:06 4865 4

原创 学习NLP的第6天——首字散列其余二分的字典树

主要通过《自然语言处理入门》(何晗)的第2章来学习散列函数。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。在当前字典树的查询过程中,需要不断在字典树中查询字符对应的节点。然而,节点在结构中在相对位置是随机的,因此,在结构中查找节点时需进行一系列的比较,而查询的效率则依赖于查询过程中所进行的比较的次数,当字典树分支较多时,查询速度会受到影响。理想的情...

2020-03-06 16:44:11 895 1

原创 学习NLP的第5天——AC自动机

主要通过《自然语言处理入门》(何晗)的第2章来学习AC自动机。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。AC自动机是用来解决如下问题:仅通过对文本的一次扫描,就查询出文本内包含的所有出现在词典中的词。其目的是简化全切分扫描过程的复杂度。下面我尽可能用通俗的语言来表达。在全切分(查询出文本内包含的所有出现在词典中的词)长度为n的...

2020-03-06 16:39:30 778

原创 学习NLP的第4天——HanLP词典分词的Python实现

通过《自然语言处理入门》(何晗)的第2章来学习HanLP词典分词的Python实现。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。首先,我们导入HanLPfrom pyhanlp import HanLP下面,实现最基本的中文分词(依据HanLP默认词典,显示词语和词性、处理数字和英文的识别)sentence = "deadline并不...

2020-03-06 16:36:19 1184 1

原创 学习NLP的第3天——字典树

通过《自然语言处理入门》(何晗)的第2章来学习一下分词的常用算法,因此以下的实现方法都是通过HanLP实现的。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。字符串集合常用字典树(Trie树)存储,这是一种字符串上的树形数据结构。字典树中每条边都对应一个字,从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串,而是将词典视作根节点到某...

2020-03-06 16:06:42 608

原创 学习NLP的第2天——中文词典分词的切分算法

我以前用过Jieba、Pkuseg、HanLP等开源工具的分词功能,现在主要通过《自然语言处理入门》(何晗)的第2章来学习一下分词的常用算法,因此以下的实现方法都是通过HanLP实现的。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解,以供其他学习的朋友参考。中文分词指的是将一段文本拆分为一系列单词的过程,将这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则和基于...

2020-03-06 13:00:26 2640 4

原创 学习NLP的第1天——学习大纲及入门资源整理

我以前虽然在研究中用过一些NLP相关方法,但是都仅限于最基础的应用,最近开始系统性地自学NLP。将学习过程进度以及遇到问题的解决方案记录于此,不求踩出一条路,只求为其他自学的朋友踩掉一些坑。NLP基本大纲首先,我依据以前的了解和收集的各处教程、网课,整理了NLP主要的学习大纲。因为一些方法我并没有用过也不了解,所以可能逻辑上会存在问题,以后理解深刻会逐渐更正。算法模型概率图模型...

2020-03-06 12:54:28 977

Kaggle:tmdb-box-office-prediction(转结构化数据,用于 SQL 练习)

原数据源(将其训练集结构化): https://www.kaggle.com/c/tmdb-box-office-prediction/data 数据量级+建表语句(含字段含义注释)详见博客: https://dataartist.blog.csdn.net/article/details/132268426 共 15 个表: - movies:电影表 - belongs_to_collection:电影系列表 - person:人员表(演员与剧组人员) - cast_rela:电影与演员的关联表 - crew_rela:电影与剧组人员的关联表 - genres:电影体裁表 - genres_rela:电影与体裁关联表 - keywords:电影关键词表 - keywords_rela:电影与关键词关联表 - production_companies:电影制作公司表 - production_companies_rela:电影与制作公司关联表 - production_countries:电影制作国家表 ……

2023-08-14

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除