2020年03月_长行

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

原创学习NLP的第10天——文章关键词提取：词频统计

关键词提取是词语颗粒度的信息抽取的一种重要的需求，即提取文章中重要的词语。关键词提取的常用方法包括词频统计、TF-IDF和TextRank等。其中，词频和TextRank属于单文档算法，即只需一篇文章即可提取出其中的关键词；而TF-IDF则属于多文档宣发，需要其他文档的辅助来提取当前文章的关键词。词频统计的Python实现词频统计的逻辑是：在一篇文章中，越重要的关键词往往会在文章中...

2020-03-06 16:54:53 5781

原创学习NLP的第9天——基于HanLP实现的拼音转换

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。拼音转换是指将汉字转化为拼音的过程。因为拼音转换涉及多音字的问题，所以仍然不能仅通过字转换，还需要按词转换。下面我们使用HanLP的方法实现拼音转换。from pyhanlp import *if __name__ == "__main__": Pinyin = JClass("c...

2020-03-06 16:52:56 1537

原创学习NLP的第8天——基于HanLP实现的中文文本清洗

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。在拿到自然语言语料之后，并不能直接用来分析，需要先进行数据清洗的工作。英文语料数据清洗通常而言，英文语料的清洗包括如下步骤：文本规范化（Normalization），将文本中所有的字母统一转换为大写或小写，如不需要标点符号也可以过滤掉文本中的标点符号。英文语料分词（Tokenization），将...

2020-03-06 16:48:57 2170

原创学习NLP的第7天——基于HanLP实现的停用词过滤

这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。停用词，是指文本中没有多少实际意义的词语，包括助词、连词、副词、语气词等词性，句子中去掉了停用词并不影响语句的理解。停用词视具体情况在英雄联盟的游戏内聊天框中，敏感词和低俗词也都被视作了停用词。停用词过滤是语言文本预处理的一个重要步骤，有两种常用的情景：将分词结果中的停用词剔除直接将文本中的...

2020-03-06 16:47:06 4865 4

原创学习NLP的第6天——首字散列其余二分的字典树

主要通过《自然语言处理入门》(何晗)的第2章来学习散列函数。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。在当前字典树的查询过程中，需要不断在字典树中查询字符对应的节点。然而，节点在结构中在相对位置是随机的，因此，在结构中查找节点时需进行一系列的比较，而查询的效率则依赖于查询过程中所进行的比较的次数，当字典树分支较多时，查询速度会受到影响。理想的情...

2020-03-06 16:44:11 895 1

原创学习NLP的第5天——AC自动机

主要通过《自然语言处理入门》(何晗)的第2章来学习AC自动机。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。AC自动机是用来解决如下问题：仅通过对文本的一次扫描，就查询出文本内包含的所有出现在词典中的词。其目的是简化全切分扫描过程的复杂度。下面我尽可能用通俗的语言来表达。在全切分（查询出文本内包含的所有出现在词典中的词）长度为n的...

2020-03-06 16:39:30 778

原创学习NLP的第4天——HanLP词典分词的Python实现

通过《自然语言处理入门》(何晗)的第2章来学习HanLP词典分词的Python实现。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。首先，我们导入HanLPfrom pyhanlp import HanLP下面，实现最基本的中文分词（依据HanLP默认词典，显示词语和词性、处理数字和英文的识别）sentence = "deadline并不...

2020-03-06 16:36:19 1184 1

原创学习NLP的第3天——字典树

通过《自然语言处理入门》(何晗)的第2章来学习一下分词的常用算法，因此以下的实现方法都是通过HanLP实现的。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。字符串集合常用字典树（Trie树）存储，这是一种字符串上的树形数据结构。字典树中每条边都对应一个字，从根节点往下的路径构成一个个字符串。字典树并不直接在节点上存储字符串，而是将词典视作根节点到某...

2020-03-06 16:06:42 608

原创学习NLP的第2天——中文词典分词的切分算法

我以前用过Jieba、Pkuseg、HanLP等开源工具的分词功能，现在主要通过《自然语言处理入门》(何晗)的第2章来学习一下分词的常用算法，因此以下的实现方法都是通过HanLP实现的。这里主要记录我在学习过程中整理的知识、调试的代码和心得理解，以供其他学习的朋友参考。中文分词指的是将一段文本拆分为一系列单词的过程，将这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则和基于...

2020-03-06 13:00:26 2640 4

原创学习NLP的第1天——学习大纲及入门资源整理

我以前虽然在研究中用过一些NLP相关方法，但是都仅限于最基础的应用，最近开始系统性地自学NLP。将学习过程进度以及遇到问题的解决方案记录于此，不求踩出一条路，只求为其他自学的朋友踩掉一些坑。NLP基本大纲首先，我依据以前的了解和收集的各处教程、网课，整理了NLP主要的学习大纲。因为一些方法我并没有用过也不了解，所以可能逻辑上会存在问题，以后理解深刻会逐渐更正。算法模型概率图模型...

2020-03-06 12:54:28 977

Kaggle：tmdb-box-office-prediction（转结构化数据，用于 SQL 练习）

原数据源（将其训练集结构化）： https://www.kaggle.com/c/tmdb-box-office-prediction/data 数据量级+建表语句（含字段含义注释）详见博客： https://dataartist.blog.csdn.net/article/details/132268426 共 15 个表： - movies：电影表 - belongs_to_collection：电影系列表 - person：人员表（演员与剧组人员） - cast_rela：电影与演员的关联表 - crew_rela：电影与剧组人员的关联表 - genres：电影体裁表 - genres_rela：电影与体裁关联表 - keywords：电影关键词表 - keywords_rela：电影与关键词关联表 - production_companies：电影制作公司表 - production_companies_rela：电影与制作公司关联表 - production_countries：电影制作国家表 ……

2023-08-14

请问大家有推荐的 CPython 相关教程或书籍吗？

2023-05-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人