如何把Excel中的文字保存为txt文件？

最新推荐文章于 2024-03-21 11:33:45 发布

自塾

最新推荐文章于 2024-03-21 11:33:45 发布

阅读量1.1k

点赞数

分类专栏： VBA 自然语言处理

本文链接：https://blog.csdn.net/weixin_43320381/article/details/105211323

版权

自然语言处理同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

VBA

3 篇文章 0 订阅

订阅专栏

使用Python做NLP任务的时候，经常会清洗数据，做成txt文件，每一行代表一篇文章。但是，采用pd.read_csv(‘新华社数据.csv’, encoding = ‘GB2312’, error_bad_lines=False) 这种方法会出现报错，无法识别位置XXX处的字符。而csv文件是可以用Excel打开的，作为备选，可以从Excel中提取文本。VBA代码如下：

Sub zhuantxt()
Dim gpath, ss As String
Dim sfile As Object, Fso As Object
gpath = "D:\ML"  '先定义一个保存路径
Set Fso = CreateObject("Scripting.FileSystemObject")
Set sfile = Fso.CreateTextFile(gpath & "\xinhua.txt", True, True)
'注意这里的两个Ture
'第一个true表示可以覆盖，改成false表示不能覆盖。
'第二个true表示unicode，省略true就是ANSI。
'这里的unicode具体是utf-16
For i = 2 To 8
    ss = Cells(i, 4)
    If InStr(1, ss, Chr(10), vbBinaryCompare) > 0 Then
    ss = Application.WorksheetFunction.Clean(ss)
    End If
    '这个If代码块的作用是去除非打印字符，比如空格，换行等。
    ss = Replace(ss, "新华社", "") '删掉文本中的“新华社”三个字
    sfile.WriteLine (ss) '把变量作为一行写入txt文件
Next
sfile.Close
Set sfile = Nothing
Set Fso = Nothing
End Sub