![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本预处理
文章平均质量分 70
Steven灬
不知不为过,不学就是错!
展开
-
Pandas-DataFrame常用基础知识点总结
注:以下知识点总结是将数据转为DataFrame格式数据的基础之上进行操作的(首先需要做的是将数据转为DataFrame格式)原创 2023-06-20 20:56:38 · 1402 阅读 · 0 评论 -
Python实现数据库中根据主键ID进行数据合并拼接
在同一个数据库中,有两张表,主表主键为id,第二张表的主键为pid(id与pid为通用主键,只是在不同的表中可能命名不一样)。这里是以第二张表为中心,根据pid与主表中的id进行匹配,获取某个字段信息,例如身份证号,进行合并拼接,具体代码实现如下:import psycopg2import pandas as pdimport osimport jsondef ge...原创 2019-11-07 11:20:17 · 4887 阅读 · 0 评论 -
文本数据标注工具Doccano
doccano是一个开源文本标注工具。 它提供了文本分类,序列标注和序列到序列的标注功能。 因此,您可以为情绪分析,命名实体识别,文本摘要等创建标记数据。 只需创建项目,上传数据并开始标注。总结下来就3步,上传数据,标注,下载带有标签的数据。命名实体识别第一个演示是序列标记任务之一,命名实体识别。 您只需选择文本跨度并对其进行标注即可。 由于doccano支持快捷...原创 2019-10-24 16:46:34 · 13888 阅读 · 6 评论 -
数据分析初步之数据预处理
有段时间没写博客了,最近一直在忙自己的事。听说今天发一篇原创博客就可以领个勋章,想想没啥可写的,就把之前的学习笔记整理一下,1024,请赐我一枚勋章,哈哈哈……数据分析初步之数据预处理一、生成数据表import numpy as npimport pandas as pd1 导入数据表df = pd.DataFrame(pd.read_csv('name....原创 2019-10-24 16:22:11 · 2931 阅读 · 0 评论 -
Pycharm正则实现键值对格式转字典图解
Pycharm正则实现键值对格式转字典:1、打开Pycharm,新建py文件(其他文件格式都可以)2、将自己需要转为字典的内容放入,要求格式必须为 key:value 的格式3、按Ctrl+R键,并勾选右上角的 Regex 的复选框4、在左上角有两个输入栏,第一个输入栏是源匹配,第二个输入栏是替换匹配。在第一个输入栏输入自己匹配格式的正则表达式 (.*):...原创 2019-05-23 14:11:15 · 1442 阅读 · 0 评论 -
Python实现批量汉字转拼音作搜索框提示词
下拉框提示词也称Suggestion(查询词提示),这已经是搜索引擎必备的一个功能了,而问答系统则是搜索引擎的精简版,也需要检索提示功能,给用户带来便捷,提高产品的体验感。当你在搜索框进行输入时,搜索框会打开下拉的提示框,动态的向你提示一些与你已经出入内容相关的查询关键词。如果在提示框中看到自己所希望输入的关键词,直接用鼠标点击或键盘选择即可进行搜索,减少了用户输入的字符数量。当然搜索框提...原创 2019-05-23 11:34:56 · 1415 阅读 · 1 评论 -
Python实现文本正则匹配与日期识别
Python实现文本简单正则匹配代码如下:#例1:获取包含'爬虫'这个关键词的句子#匹配字符串用re.search的方法——re.search(reger,string)import retext_string = '文本最重要的来源无疑是网络。我们要把网络中的文本获取形成一个文本数据库。利用一个爬虫抓取到网络中的信息。' \ '爬取的策略有广度爬取和深度...原创 2019-04-27 20:52:47 · 6360 阅读 · 0 评论 -
Python实现同义词替换(哈工大pyltp分词)
问答系统慢慢的成为非常流行且非常实用的应用,成为越来越多的研究者的研究方向。当前问答系统有基于知识库的问答系统,对话系统以及聊天机器人。在问答系统中,当用户想要利用问答系统搜索到与自己提出query相同或相似的问题及其答案时,由于用户输入query都是自己描述的,比较口语化,且有错别字,歧义等,其结构复杂和句式冗长,使得从问句中提取重要关键词项会比较困难(提出的关键词质量不高,词不达意的现...原创 2019-04-21 13:18:39 · 16253 阅读 · 3 评论 -
Python读取文件进行中文词频统计
第一种情况:利用Counter函数进行词频统计,比较简洁,代码如下:数据:movie_comments.csv文件为23万的影评数据结果: 第二种情况:但是如是大批量语料,电脑配置不好的,建议先预处理保存到本地,再去统计词频,代码如下:先预处理保存到本地:再进行分词、词频统计:结果同上。1、读取文件2、分词,加载自定义词典,去数字,去停用词3、统计词频并排序代码如下:结果: 三部曲:读取文件、文件清洗与分词、统计词频读取的原创 2019-04-10 15:11:15 · 11843 阅读 · 0 评论