提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
解决的问题
1、用python读取某文件夹里所有文件的内容。
2、用正则表达式匹配提取文件中需要的内容。
3、用jieba进行分词。
4、按比例划分数据集。
5、读取json文件,存储、读取csv文件。
1、引入库,设置路径
import os
import json
import re
import pandas as pd
path = './da'
#path = './task'
s = []
l = []
2、读取文件夹里所有文件的数据,并且匹配要提取的内容
l = os.listdir(path) #把文件夹中的文件名以文本的形式放入列表
#print(l)
for i in l: #遍历每一个文件名
if 'json' not in i: #跳过不是json的文件
continue
p = []
k = path+'/'