直接上代码 怎么用 ,具体原理 你参照其他人的
环境 python3 linux pycharm
训练语料文件: 具体的文件这里我涉及到业务的问题没办法放出来 格式就是excel 如下图 后面用pandas 处理读取
这个函数时处理成我们fasttext 能够接受的格式
def writeData(sentences,fileName):
out=open(fileName,'w',encoding='utf-8')
for sentence in sentences:
out.write(sentence+"\n")
def pre_data_process():
base_dir='./data/你的excel文件名'#data是我自己的文件名,你可以自己改自己的
df = pd.read_excel(base_dir,encoding ="utf-8")
df=df.dropna() #去空行处理
langue=df['语料'].values.tolist()
intent=df['原始意图'].values.tolist()
#分割语句 这个里面你可以用stopwords 进行停用词的处理,我这边没有处理
sentences=[]
for i,