- 博客(2)
- 收藏
- 关注
原创 用 Python 做文本挖掘的基本流程
收集数据 数据集。如果是已经被人做成数据集了,这就省去了很多麻烦事 抓取。这个是 Python 做得最好的事情,优秀的包有很多,比如 scrapy,beautifulsoup 等等。 预处理去掉抓来的数据中不需要的部分,比如 HTML TAG,只保留文本。结合 beautifulsoup 和正则表达式就可以了。pattern.web 也有相关功能。 处理编码问题。utf-8赛高 将文档分割成句子。
2016-08-01 16:44:10 2209
原创 markdowm
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-08-01 14:45:41 515
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人