- 博客(5)
- 资源 (5)
- 收藏
- 关注
原创 数据预处理(提取数据,合并csv,建立词典,引入外部词典的分词,删除csv文件特定行)
数据处理1、提取数据第一步:创建一个DataFrame第二步:提取相应列存入DataFrame2、从多文件中提取数据3、合并csv文件4、用正则表达式抠出所需内容5、生成词表6、引入外部词典的分词7、分词并标记专有名词①导入词表②分词+标记8、删除csv文件特定行1、提取数据先按列名提取出所需列,在新建文件夹放进去。例:【公开号,标题,摘要,权利要求,IPC分类号】从上述列中提取“IPC分类号”和“摘要”第一步:创建一个DataFramenew_data=pd.DataFrame()第二步:
2021-04-20 21:12:25 898 1
原创 用python读取某文件夹里所有文件的内容,然后用正则表达式匹配提取文件中需要的内容,用jieba分词后按比例划分数据集(包含读取json文件,存储、读取csv文件)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档解决的问题1、用python读取某文件夹里所有文件的内容。2、用正则表达式匹配提取文件中需要的内容。3、用jieba进行分词。4、按比例划分数据集。5、读取json文件,存储、读取csv文件。1、引入库,设置路径import osimport jsonimport reimport pandas as pdpath = './da'#path = './task's = []l =..
2020-12-25 17:37:29 1699
原创 小白学习NLP:第一篇论文《LCSTS:大规模中文短文本摘要数据库》
小白学习NLP:第一篇论文 我是一名在计算机学院实验室的通信研究生,今年研二,但是由于研一上学期课多,下学期疫情,一直没能进实验室,所以在研究方向上,我还是一个啥都不懂的小白。我的研究方向也是跟着实验室里学长做NLP摘要生成。 我想从这里开始认真学习做笔记,同时记录我的学习过程,期待有一天,自己也能成为大神。 这篇论文所讲到的数据库,是现在做摘要生成会用到的最基础的数据库,之后的学习中都会用到,是学长推荐我读的第一篇论文。 因为我是从零开始学习,所以文章中所提到的
2020-10-23 12:26:04 921
原创 小白学习NLP(自然语言处理)第一课:什么是神经网络
小白笔记-学习NLP(自然语言处理)第一课:什么是神经网络神经网络(NN)人工神经网络是模仿生物神经网络而人工搭建的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。这就是一个可视化的人工神经网络,里面的圆圈就是神经元,与生物神经元不同的是,人工神经元的排列是整齐有序的,每一列组成一个神经层,第一列是输入层,直接接收传入的信息。最后一列是输出层,输出经过神经元的传递分析得到的结果。隐藏层,是在输入层和输出层中由众多神经元组成的各个层面,可以有多层,至少一层,主要负责传递信息,以及对信息的加
2020-10-21 15:40:53 632
实体相似度相关论文11篇
2021-02-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人