qq_41796035-CSDN博客

原创数据可视化——plt:用python画图（一）

从零学习plt，用python画图，让数据随自己心意有意思起来！

2022-01-14 16:46:57 1813

原创数据预处理（提取数据，合并csv，建立词典，引入外部词典的分词，删除csv文件特定行）

数据处理1、提取数据第一步：创建一个DataFrame第二步：提取相应列存入DataFrame2、从多文件中提取数据3、合并csv文件4、用正则表达式抠出所需内容5、生成词表6、引入外部词典的分词7、分词并标记专有名词①导入词表②分词+标记8、删除csv文件特定行1、提取数据先按列名提取出所需列，在新建文件夹放进去。例：【公开号,标题,摘要,权利要求,IPC分类号】从上述列中提取“IPC分类号”和“摘要”第一步：创建一个DataFramenew_data=pd.DataFrame()第二步：

2021-04-20 21:12:25 970 1

原创用python读取某文件夹里所有文件的内容，然后用正则表达式匹配提取文件中需要的内容，用jieba分词后按比例划分数据集（包含读取json文件，存储、读取csv文件）

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档解决的问题1、用python读取某文件夹里所有文件的内容。2、用正则表达式匹配提取文件中需要的内容。3、用jieba进行分词。4、按比例划分数据集。5、读取json文件，存储、读取csv文件。1、引入库，设置路径import osimport jsonimport reimport pandas as pdpath = './da'#path = './task's = []l =..

2020-12-25 17:37:29 1802

原创小白学习NLP：第一篇论文《LCSTS:大规模中文短文本摘要数据库》

小白学习NLP：第一篇论文我是一名在计算机学院实验室的通信研究生，今年研二，但是由于研一上学期课多，下学期疫情，一直没能进实验室，所以在研究方向上，我还是一个啥都不懂的小白。我的研究方向也是跟着实验室里学长做NLP摘要生成。我想从这里开始认真学习做笔记，同时记录我的学习过程，期待有一天，自己也能成为大神。这篇论文所讲到的数据库，是现在做摘要生成会用到的最基础的数据库，之后的学习中都会用到，是学长推荐我读的第一篇论文。因为我是从零开始学习，所以文章中所提到的

2020-10-23 12:26:04 1017

原创小白学习NLP（自然语言处理）第一课：什么是神经网络

小白笔记-学习NLP（自然语言处理）第一课：什么是神经网络神经网络（NN）人工神经网络是模仿生物神经网络而人工搭建的，试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。这就是一个可视化的人工神经网络，里面的圆圈就是神经元，与生物神经元不同的是，人工神经元的排列是整齐有序的，每一列组成一个神经层，第一列是输入层，直接接收传入的信息。最后一列是输出层，输出经过神经元的传递分析得到的结果。隐藏层，是在输入层和输出层中由众多神经元组成的各个层面，可以有多层，至少一层，主要负责传递信息，以及对信息的加

2020-10-21 15:40:53 724

实体相似度相关论文11篇

《基于《知网》的词语相似度算法研究》《基于本体的概念相似度计算_张忠平》《基于树结构的本体概念相似度计算方法_徐英卓》《Ensan-Du2019_Article_AdHocRetrievalViaEntityLinking》《Exploiting semantic similarity for named entity disambiguation in knowledge graphs》等等

2021-02-07