Introduction
文本分析工具箱提供用於前處理,分析和建模文本數據的演算法和視覺化的相關工具。 使用此工具箱建立的模型可用於情緒分析,預測性維護和主題建模等應用。
文本分析工具箱包括用於處理來自如設備日誌,新聞報導訂閱,問卷,操作報告和社群媒體等來源的原始文字的工具。使用此工具箱,您可以從常見的文件格式擷取文字,前處理原始字串,擷取指定的單詞,將文字數字化及建立統計模型。
使用如潛在語意分析(latent semantic analysis,LSA),隱含狄利克雷分布(latent Dirichlet allocation,LDA)和詞嵌入(word embeddings)等機器學習技術,您可以從高維度字串資料中找到分群並建立特徵。使用文本分析工具箱建立的特徵可以與來自其他資料源的特徵相結合,以利機器學習模型使用數字和其他類型的特徵。
本工具箱使用需搭配MATLAB、Statistics and Machine Learning Toolbox。建議搭配Parallel Computing Toolbox、Neural Network Toolbox
Key Features
文本前處理和標準化
包括潛在狄利克雷分配(latent Dirichlet allocation , LDA)和潛在語意分析(latent semantic analysis LSA)等機器學習演算法
詞嵌入訓練(Word-embedding),以及導入使用word2vec,FastText和GloVe進行預訓練的模型
文字雲和文字散佈圖
導入從PDF和Microsoft®Word®檔案
TF-IDF和詞頻統計
2018b加入 :
支援日語:對日語文本執行文本分析,包括斷詞(tokenization)、停止詞、詞形還原(lemmatization)和詞性標註。
剖析 HTML結構:使用 HTML 結構和 CSS類別,可從網頁的特定部分擷取 HTML語法。