文本预处理
林灵会灭
这个作者很懒,什么都没留下…
展开
-
pandoc不是内部或外部命令
1.安装pandocwin7,在Anaconda prompt中pandoc 显示‘pandoc’不是内部或外部命令,也不是可运行的程序分析原因,应该是没添加路径,环境变量中有 “安装环境\Anaconda3\Scripts”,也不知道应该添加啥我的情况是:安装环境\Anaconda3\Scripts没有pandoc.exe文件在‘\Anaconda3\Lib\site-...原创 2020-03-23 01:11:03 · 3504 阅读 · 1 评论 -
文本预处理——python数据读入
1 数据读入1.1 后缀名为docxanaconda环境,cmdpip install docx2.x便可直接使用,但是3.x版本不兼容,import docx会显示Import Error: No module named ‘exceptions’解决方法:在https://www.lfd.uci.edu/~gohlke/pythonlibs/找到python_docx-0....原创 2019-05-30 15:29:13 · 1184 阅读 · 0 评论 -
文本预处理——分词+TF-IDF
1.分词1.1 基础分词jieba.cut()import jiabacut_result=' '.join(jieba.cut('给我点赞吧!哈,哈。哈;哈?'))结果:注意这里,用‘ ’来join就代表着用空格来将词分开,也可以使用“、”“/”等1.2 去除标点符号想要去除标签符号,可以使用replace()sen_exp='给我点赞吧!哈,哈。哈;哈?'#sen_ex...原创 2019-05-31 18:48:39 · 2523 阅读 · 1 评论