![](https://img-blog.csdnimg.cn/a3a15dcc08764be7a93f762a98028603.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据处理
数据预处理操作
三千院本院
奥利给
展开
-
JSON数据处理
关于数据预处理信息的整合原创 2023-06-01 09:25:21 · 5 阅读 · 0 评论 -
python对json读取和写入汇总
2、由于json的特殊性,写入需要格式规范,假设现在存在一个json格式数据为。此时data_json即为读取到的数据,可对其进行操作。需要将其写入到文件data.json中,代码如下。1、读取json数据。原创 2023-09-06 16:09:16 · 312 阅读 · 0 评论 -
Python对CSV文件进行写入操作
【代码】Python对CSV文件进行写入操作。原创 2023-08-23 21:47:14 · 537 阅读 · 0 评论 -
Python对XLSX文件进行操作
4、整合代码为:提取某一个xlsx中的一列(提取后默认list格式),后写入到新的xlsx文件中。2、得到data为全部数据,若是需要提取指定列如下。3、将提取的数据写入新的xlsx中。原创 2023-08-23 21:39:56 · 277 阅读 · 0 评论 -
关于Flask请求(GET/POST)大全
2、请求接口并传入数据。原创 2023-08-21 11:56:46 · 268 阅读 · 0 评论 -
调整类别和id的对应关系(前后)
2、给定数据在指定路径中,但是路径中的数据同上。1、在程序中给定一个data数据。原创 2023-08-18 10:44:42 · 42 阅读 · 0 评论 -
通过一个list(存储下标)对另一个list进行切分
注:cut_index为依据此进行切片的下标信息,all_list为待切片内容。原创 2023-07-22 17:39:44 · 97 阅读 · 0 评论 -
数据预处理一(去除语料中的空格)
1、去除文本中的空格。原创 2023-07-10 17:49:40 · 85 阅读 · 0 评论 -
数据预处理二(同一文件夹下多文件路径加载入list中)
1、如data文件夹下,有1-10个txt文件,需要循环遍历并对文件进行操作,不能够手动去修改路径,这时候,需要将所有路径添加到list中,进行遍历就可以。原创 2023-07-10 17:53:07 · 77 阅读 · 0 评论 -
Python 读取json文件
2、使用open() 打开,按照行去读取,即不针对json格式去做特定读取,且同时满足read(), readline(), readlines()操作。Python 的 strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。4、对读取的文本进行去除前尾空格操作 .strip()3、针对json格式做特定读取。原创 2023-07-10 17:06:28 · 218 阅读 · 0 评论 -
Python读取 .txt文件
(3)readlines() 一次性读取文本的所有内容,返回一个列表,列表每个元素代表一行。这种方法读取的文本内容,每行文本末尾都会带一个’\n’换行符。(1)read() 是最简单的一种方法,一次性读取文件的所有内容放在一个大字符串中,即存在内存中。4、针对.read(),readline()、readlines()操作。(2)readline() 每次读取一行信息,结果是一个list。2、打开操作 open() 中’r’ ‘w’ ‘a’ 的不同作用。弊:文件过大的时候,占用内存会过大。原创 2023-07-10 16:42:04 · 2516 阅读 · 0 评论 -
python循环多json文件并按要求写入不同json文件中
5、需要注意的地方,一般写入操作是将open()中的模式改为’w’,但是循环写入会导致最终文件中只留下最后一条数据,因为’w’在每次写入时,会清空文件中的内容,故将’w’更改为’a’,即在不清空的基础上,新增内容。场景:当前有17个被分割的json文件,现在需要将这17个文件全部按要求并入训练集和测试集文件中,条件为:如将遍历到的前20000条数据加载进训练集,其余的并入测试集。6、但是好像最后需要手动添加符号更改格式,因为加入的是纯 dict 数据,需要手动添加 ‘[]’ 和 ‘,’。原创 2023-07-08 11:52:41 · 783 阅读 · 0 评论 -
对json数据中进行标签转换
【代码】对json数据中进行标签转换。原创 2023-07-07 11:58:13 · 273 阅读 · 0 评论 -
关于json数据的写入(write())必须为str类型及写入后双引号“变为‘号问题
2、经过初步处理,对上述数据进行操作,需要去除"duoyu": "0"项,此时读取之后对值进行更改要存入另一个新的json文件中,但是读取完之后,直接使用write()写入会报错如下。问题一会造成写入的时候双引号变单引号,在新文件内需要手动调整,如果原始数据中文本存在引号可能更加麻烦。4、故使用其他方法进行写入,在写入前,进行json.dumps转换,如下。问题二:会导致后续在传值时出现报错,就…即添加ensure_ascii=False部分。1、原始json数据。原创 2023-07-07 11:18:03 · 390 阅读 · 0 评论 -
遍历 .txt 文件并去除多余空格,一句话实现
【代码】遍历 .txt 文件并去除多余空格,一句话实现。原创 2023-07-06 14:22:06 · 178 阅读 · 0 评论 -
list去重
思路:遍历需要去重的List,判断这些值是否已经存在于另一个list,如果存在,则不append进去,如果不存在,则append进去。1、对一个list进行去重操作。原创 2023-07-05 17:12:30 · 33 阅读 · 0 评论 -
list 新建、相加、去重
3、在一个list中去除另一个list中拥有的值。2、两个list,合并成一个list。1、range新建一个list。原创 2023-06-06 10:15:18 · 237 阅读 · 0 评论 -
python对字典操作
1、如下字典 dict1。原创 2023-06-06 10:23:04 · 42 阅读 · 0 评论 -
python读取 .txt文件和 .json文件
2、读取 .txt前一百条数据并写入。1、查看 .txt文件有多少条数据。3、读取 .json文件。原创 2023-06-07 10:22:56 · 138 阅读 · 0 评论 -
Python切片
、“切取方向非常重要!”、“切取方向非常重要!3、start_index:表示起始索引(包含该索引本身),该参数省略时,表示从对象 “端点” 开始取值,至于是从 “起点” 还是从 “终点” 开始,则由step参数的正负决定,step为正从 “起点” 开始,为负从 “终点” 开始。4、end_index:表示终止索引(不包含该索引本身),该参数省略时,表示一直取到数据 “端点”,至于是到 “起点”还是到 “终点”,同样由step参数的正负决定,step为正时直到 “终点”,为负时直到 “起点”。原创 2023-06-07 15:26:13 · 60 阅读 · 0 评论 -
append操作
使用此操作,可以向已有列表 list 添加任意要素。需要注意的是,此操作不是追加要素后生成新的列表,而是向已有列表中追加新的要素。并且,每次操作只能在列表最后位置添加一个要素,如果需要一次追加多个要素时,可以考虑使用列表的结合操作extend。以下分别用实例说明。4、实现对 list 的追加(多个元素),extend。3、对已有list追加的多个数字会 报错!1、对已有list追加的单个数字。5、对获取内容进行分块嵌套。2、对已有list嵌套。原创 2023-06-07 16:23:22 · 105 阅读 · 0 评论 -
Python对文本进行分句
1、根据标点符号对一段话进行分句。2、根据序号对一段话进行切分。原创 2023-06-19 16:47:58 · 1759 阅读 · 0 评论 -
for字典和list区别
【代码】for字典和list区别。原创 2023-06-26 18:31:37 · 32 阅读 · 0 评论 -
LCQMC 相似度数据集预处理(分句)
【代码】LCQMC 相似度数据集预处理(分句)原创 2023-06-30 13:59:45 · 336 阅读 · 0 评论 -
对json数据进行特定筛选、去重、写入、去空
目标:筛选出该数据格式list中每个字典中的sshy和zyyw数据,并赋予label和text关键字。4、最终得到的数据即为即没有空值,格式也正确的数值。1、遍历json格式数据,并从中取出对应数据。3、但是得到的数据中,有很多空值,需要剔除。原创 2023-07-05 11:53:04 · 1167 阅读 · 0 评论